論文の概要: DM-Adapter: Domain-Aware Mixture-of-Adapters for Text-Based Person Retrieval
- arxiv url: http://arxiv.org/abs/2503.04144v1
- Date: Thu, 06 Mar 2025 06:41:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:01:23.483388
- Title: DM-Adapter: Domain-Aware Mixture-of-Adapters for Text-Based Person Retrieval
- Title(参考訳): DM-Adapter:テキストに基づく人物検索のためのドメイン・アウェア・ミックス・オブ・アダプタ
- Authors: Yating Liu, Zimo Liu, Xiangyuan Lan, Wenming Yang, Yaowei Li, Qingmin Liao,
- Abstract要約: テキストベースの人物検索(TPR)は、きめ細かな課題として注目されている。
TPRの以前のフルモデル微調整は計算コストが高く、過度に適合する傾向がある。
新しいDomain-Aware Mixture-of-Adapter (DM-Adapter)は最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 47.018491164452094
- License:
- Abstract: Text-based person retrieval (TPR) has gained significant attention as a fine-grained and challenging task that closely aligns with practical applications. Tailoring CLIP to person domain is now a emerging research topic due to the abundant knowledge of vision-language pretraining, but challenges still remain during fine-tuning: (i) Previous full-model fine-tuning in TPR is computationally expensive and prone to overfitting.(ii) Existing parameter-efficient transfer learning (PETL) for TPR lacks of fine-grained feature extraction. To address these issues, we propose Domain-Aware Mixture-of-Adapters (DM-Adapter), which unifies Mixture-of-Experts (MOE) and PETL to enhance fine-grained feature representations while maintaining efficiency. Specifically, Sparse Mixture-of-Adapters is designed in parallel to MLP layers in both vision and language branches, where different experts specialize in distinct aspects of person knowledge to handle features more finely. To promote the router to exploit domain information effectively and alleviate the routing imbalance, Domain-Aware Router is then developed by building a novel gating function and injecting learnable domain-aware prompts. Extensive experiments show that our DM-Adapter achieves state-of-the-art performance, outperforming previous methods by a significant margin.
- Abstract(参考訳): テキストベースの人物検索(TPR)は,実践的アプリケーションと密接に一致した,きめ細かな課題として注目されている。
視覚言語プレトレーニングに関する知識が豊富にあるため、CLIPを個人領域に配置することは、現在、新たな研究トピックとなっている。
(i)従来のTPRのフルモデル微調整は計算コストが高く、過度に適合する傾向がある。
(II)TPRのための既存のパラメータ効率変換学習(PETL)には,微細な特徴抽出が欠如している。
これらの問題に対処するため、我々はMixture-of-Adapter (DM-Adapter)を提案し、効率を保ちながら細粒度の特徴表現を強化するために、Mixture-of-Experts (MOE) とPETLを統合する。
具体的には、Sparse Mixture-of-Adaptersは視覚と言語の両方でMLPレイヤと並列に設計されている。
ルーティングの不均衡を効果的に軽減するために、新しいゲーティング機能を構築し、学習可能なドメイン認識プロンプトを注入することにより、ルータを進化させる。
DM-Adapterは,従来の手法よりも高い精度で,最先端の性能を実現している。
関連論文リスト
- MaPPER: Multimodal Prior-guided Parameter Efficient Tuning for Referring Expression Comprehension [14.98036475954174]
Referring Expressionvolution (REC) は、自然言語を介して局所的な視覚領域を構築することを目的としている。
既存のほとんどの方法は、強力な事前訓練されたモデルを使用して、完全な微調整によって視覚的/言語的な知識を伝達する。
本稿では,Multi pre-guided Directly Efficient Tuning,すなわちMaPPERを提案する。
MaPPERは、1.41%のバックボーンパラメータしか持たないフル微調整や他のPETL法と比較して、最も精度が高い。
論文 参考訳(メタデータ) (2024-09-20T16:12:26Z) - Reliable, Adaptable, and Attributable Language Models with Retrieval [144.26890121729514]
パラメトリック言語モデル(LM)は大量のWebデータに基づいて訓練されている。
幻覚、新しいデータ分布への適応の困難、妥当性の欠如など、実践的な課題に直面している。
我々は、次世代のLMとしてパラメトリックLMを置き換えるための検索拡張LMを提唱する。
論文 参考訳(メタデータ) (2024-03-05T18:22:33Z) - BECoTTA: Input-dependent Online Blending of Experts for Continual Test-time Adaptation [59.1863462632777]
連続テスト時間適応(CTTA)は、学習済みの知識を維持しながら、継続的に見えない領域に効率的に適応するために必要である。
本稿では,CTTAの入力依存かつ効率的なモジュール化フレームワークであるBECoTTAを提案する。
提案手法は, トレーニング可能なパラメータを98%少なく抑えながら, 整合性や漸進性などの複数のCTTAシナリオに優れることを確認した。
論文 参考訳(メタデータ) (2024-02-13T18:37:53Z) - Domain-Controlled Prompt Learning [49.45309818782329]
既存の素早い学習方法はドメイン認識やドメイン転送機構を欠いていることが多い。
特定のドメインに対するtextbfDomain-Controlled Prompt Learningを提案する。
本手法は,特定の領域画像認識データセットにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-30T02:59:49Z) - Mixture-of-Domain-Adapters: Decoupling and Injecting Domain Knowledge to
Pre-trained Language Models Memories [31.995033685838962]
プレトレーニング言語モデル(PLM)は、特定のドメインで苦労しながら、ジェネリックドメインのテキストを理解する優れた能力を示す。
本稿では,数個のパラメータをチューニングするだけで,PLMを効果的かつ効率的に適用できるかどうかを検討する。
具体的には、トランスフォーマーアーキテクチャのフィードフォワードネットワーク(FFN)を、旧ドメインの知識を維持するためにトレーニング済みのFFNと、ドメイン固有の知識を並列に注入するための新しいドメイン固有のアダプタの2つに分割する。
論文 参考訳(メタデータ) (2023-06-08T17:54:36Z) - Learning Feature Decomposition for Domain Adaptive Monocular Depth
Estimation [51.15061013818216]
改良されたアプローチは、深層学習の進歩で大きな成功をもたらしたが、それらは大量の地底深度アノテーションに依存している。
教師なしドメイン適応(UDA)は、教師付き学習の制約を緩和するため、ラベル付きソースデータからラベルなしターゲットデータに知識を転送する。
本稿では,その特徴空間をコンテンツやスタイルコンポーネントに分解することを学ぶための,学習特徴分解 for Adaptation (LFDA) と呼ばれる新しいMDEのためのUDA手法を提案する。
論文 参考訳(メタデータ) (2022-07-30T08:05:35Z) - Unsupervised Domain Adaptation with Adapter [34.22467238579088]
本稿では、教師なしドメイン適応のためのアダプタベースの微調整手法について検討する。
いくつかのトレーニング可能なアダプタモジュールがPrLMに挿入され、元のPrLMのパラメータを固定することで、組み込みの汎用知識が保持される。
2つのベンチマークデータセットに関する実験を行い、その結果、我々のアプローチが異なるタスク、データセットサイズ、ドメインの類似性に対して有効であることを実証した。
論文 参考訳(メタデータ) (2021-11-01T02:50:53Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。