論文の概要: A Multihead Continual Learning Framework for Fine-Grained Fashion Image Retrieval with Contrastive Learning and Exponential Moving Average Distillation
- arxiv url: http://arxiv.org/abs/2603.20648v1
- Date: Sat, 21 Mar 2026 04:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.015998
- Title: A Multihead Continual Learning Framework for Fine-Grained Fashion Image Retrieval with Contrastive Learning and Exponential Moving Average Distillation
- Title(参考訳): コントラスト学習と指数移動平均蒸留を用いたファイングレードファッション画像検索のためのマルチヘッド連続学習フレームワーク
- Authors: Ling Xiao, Toshihiko Yamasaki,
- Abstract要約: ほとんどのきめ細かいファッション画像検索手法は静的な設定を前提としており、新しい属性が現れるとフルリトレーニングが必要になる。
コントラスト学習と指数移動平均蒸留(MCL-FIR)を用いたファッション画像検索のためのマルチヘッド連続学習フレームワークを提案する。
MCL-FIRは、インクリメント間の進化するクラスに対応するためにマルチヘッド設計を採用し、よりシンプルで効果的なトレーニングのためにInfoNCEで三重項入力をダブルトに再構成し、効率的な知識伝達のためにEMA蒸留を用いる。
- 参考スコア(独自算出の注目度): 31.097911935522674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most fine-grained fashion image retrieval (FIR) methods assume a static setting, requiring full retraining when new attributes appear, which is costly and impractical for dynamic scenarios. Although pretrained models support zero-shot inference, their accuracy drops without supervision, and no prior work explores class-incremental learning (CIL) for fine-grained FIR. We propose a multihead continual learning framework for fine-grained fashion image retrieval with contrastive learning and exponential moving average (EMA) distillation (MCL-FIR). MCL-FIR adopts a multi-head design to accommodate evolving classes across increments, reformulates triplet inputs into doublets with InfoNCE for simpler and more effective training, and employs EMA distillation for efficient knowledge transfer. Experiments across four datasets demonstrate that, beyond its scalability, MCL-FIR achieves a strong balance between efficiency and accuracy. It significantly outperforms CIL baselines under similar training cost, and compared with static methods, it delivers comparable performance while using only about 30% of the training cost. The source code is publicly available in https://github.com/Dr-LingXiao/MCL-FIR.
- Abstract(参考訳): たいていのきめ細かいファッション画像検索(FIR)メソッドは静的な設定を前提としており、新しい属性が現れるとフルリトレーニングが必要になる。
事前訓練されたモデルはゼロショット推論をサポートするが、その精度は監督無しに低下し、よりきめ細かいFIRのためのクラスインクリメンタルラーニング(CIL)の研究は行われていない。
コントラスト学習と指数移動平均 (EMA) 蒸留 (MCL-FIR) を用いたファッション画像検索のためのマルチヘッド連続学習フレームワークを提案する。
MCL-FIRは、インクリメント間の進化するクラスに対応するためにマルチヘッド設計を採用し、よりシンプルで効果的なトレーニングのためにInfoNCEで三重項入力をダブルトに再構成し、効率的な知識伝達のためにEMA蒸留を用いる。
4つのデータセットを対象とした実験では、スケーラビリティ以外にも、MCL-FIRは効率と精度のバランスが強いことが示されている。
同様のトレーニングコストでCILベースラインを大幅に上回り、静的メソッドと比較して、トレーニングコストの30%しか使用せず、同等のパフォーマンスを提供する。
ソースコードはhttps://github.com/Dr-LingXiao/MCL-FIRで公開されている。
関連論文リスト
- Fly-CL: A Fly-Inspired Framework for Enhancing Efficient Decorrelation and Reduced Training Time in Pre-trained Model-based Continual Representation Learning [42.58175645355976]
Fly-CLはバイオインスパイアされたフレームワークで、幅広い事前訓練されたバックボーンと互換性がある。
本研究では,Fly-CL が並列性を徐々に解決し,より効率的な類似性を実現する方法を示す。
論文 参考訳(メタデータ) (2025-10-19T15:21:50Z) - Smooth-Distill: A Self-distillation Framework for Multitask Learning with Wearable Sensor Data [0.0]
本稿では,人間の活動認識(HAR)とセンサ配置検出を同時に行うように設計された,新しい自己蒸留フレームワークであるSmooth-Distillを紹介する。
従来の蒸留法とは異なり, 提案手法では, モデル自体のスムーズな歴史バージョンを教師として利用している。
実験結果から,Smooth-Distill は異なる評価シナリオにおける代替手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-27T06:51:51Z) - Learning from Stochastic Teacher Representations Using Student-Guided Knowledge Distillation [64.15918654558816]
教師表現のフィルタリングと重み付けのための自己蒸留(SSD)訓練戦略を導入し,タスク関連表現のみから抽出する。
UCR Archiveのウェアラブル/バイオサインデータセット、HARデータセット、画像分類データセットなどの実世界の感情コンピューティングに関する実験結果は、提案したSSD手法が最先端の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-04-19T14:08:56Z) - CLIP-CID: Efficient CLIP Distillation via Cluster-Instance Discrimination [28.061239778773423]
CLIP(Contrastive Language- Image Pre-Training)は、幅広いタスクにおいて優れたパフォーマンスを実現している。
CLIPは事前学習データのかなりのコーパスに大きく依存しており、計算資源を消費している。
CLIP-CID(CLIP-CID)は,大規模視覚言語基礎モデルからより小さなモデルへ知識を効果的に伝達する蒸留機構である。
論文 参考訳(メタデータ) (2024-08-18T11:23:21Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。
MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。
我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文 参考訳(メタデータ) (2023-11-28T18:55:42Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Jigsaw Clustering for Unsupervised Visual Representation Learning [68.09280490213399]
本稿では,新しいjigsawクラスタリング・プレテキストタスクを提案する。
本手法は画像内情報と画像間情報の両方を利用する。
トレーニングバッチの半分しか使用されていない場合、コントラスト学習方法にも匹敵します。
論文 参考訳(メタデータ) (2021-04-01T08:09:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。