論文の概要: Learning to Prompt Your Domain for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2310.03103v5
- Date: Thu, 29 Aug 2024 17:24:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 19:38:30.301911
- Title: Learning to Prompt Your Domain for Vision-Language Models
- Title(参考訳): ビジョンランゲージモデルのためのドメインのプロンプト
- Authors: Guoyizhe Wei, Feng Wang, Anshul Shah, Rama Chellappa,
- Abstract要約: ADAPTはドメイン認識のプロンプト学習アプローチであり、フェデレートされた参加者間でドメイン内およびドメイン間プロンプトを促進する。
私たちのADAPTは、DomainNetデータセットの6つのドメインの平均精度68.4%に達し、14.8%の大きなマージンでオリジナルのCLIPを改善しています。
- 参考スコア(独自算出の注目度): 38.14559026185069
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has recently become a very efficient transfer learning paradigm for Contrastive Language Image Pretraining (CLIP) models. Compared with fine-tuning the entire encoder, prompt learning can obtain highly competitive results by optimizing only a small number of parameters, which presents considerably exciting benefits for federated learning applications that prioritizes communication efficiency. However, in this work, we identify that directly transferring prompt learning approaches into federated learning does not yield favorable results since the model often suffers from considerable domain gaps across different clients. To address this issue, we propose ADAPT, a novel domain-aware prompt learning approach that facilitates both intra- and inter-domain prompts across federated participants. The basic idea of ADAPT is that the prompted CLIP should detect the input image's domain correspondence and before making the prediction of its category. Extensive experiments of ADAPT demonstrate its significant efficiency and effectiveness in federated learning. For example, by learning and sharing only 0.08M parameters, our ADAPT attains a 68.4% average accuracy over six domains in the DomainNet dataset, which improves the original CLIP by a large margin of 14.8%.
- Abstract(参考訳): プロンプト学習は、最近、CLIP(Contrastive Language Image Pretraining)モデルの非常に効率的なトランスファー学習パラダイムとなっている。
エンコーダ全体の微調整と比較すると,少数のパラメータのみを最適化することで,迅速な学習は高い競争力を得ることができ,コミュニケーション効率を優先するフェデレーション学習アプリケーションに極めてエキサイティングなメリットをもたらす。
しかし,本研究では,学習手法を直接フェデレート学習に移行しても,モデルが異なるクライアント間のドメインギャップに悩まされることがしばしばあるため,良好な結果が得られない。
そこで本研究では,ドメイン内とドメイン間の両方のプロンプトを容易にする新しいドメイン認識型プロンプト学習手法であるADAPTを提案する。
ADAPTの基本的な考え方は、入力されたCLIPが入力画像のドメイン対応を検出し、カテゴリの予測を行う前に検出する、というものである。
ADAPTの大規模な実験は、連合学習におけるその顕著な効率性と有効性を示す。
例えば、わずか0.08Mパラメータの学習と共有によって、私たちのADAPTは、DomainNetデータセットの6つのドメインの平均精度68.4%に達し、オリジナルのCLIPを14.8%改善しました。
関連論文リスト
- Mixture of Experts Made Personalized: Federated Prompt Learning for Vision-Language Models [7.810284483002312]
我々は,Mixture of Experts (MoE) のレンズを通して,迅速な学習プロセスをパーソナライズする新しいフレームワークを提案する。
pFedMoAPは、クライアント上のローカル画像データとの整合性を改善するために、拡張されたテキスト機能を生成することを学習する、ローカルアテンションベースのゲーティングネットワークを実装している。
その結果、pFedMoAPは最先端の代替品よりも一貫して優れており、CLIPの迅速な学習をパーソナライズする効果が強調されている。
論文 参考訳(メタデータ) (2024-10-14T03:05:12Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - TAP: Targeted Prompting for Task Adaptive Generation of Textual Training
Instances for Visual Classification [28.72126911321771]
視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。
最高の視覚認識性能を得るためには、これらのモデルは下流のタスクのデータ分散をよりよく適合させるためにチューニングが必要である。
論文 参考訳(メタデータ) (2023-09-13T08:59:54Z) - SwitchPrompt: Learning Domain-Specific Gated Soft Prompts for
Classification in Low-Resource Domains [14.096170976149521]
SwitchPromptは、汎用ドメインからさまざまな低リソースドメインへのデータセットでトレーニングされた言語モデルを適応するための、新しくて軽量なプロンプト手法である。
筆者らは,SwitchPromptを用いた場合の一般領域事前学習言語モデルの有効性を3つのテキスト分類ベンチマークで検証した。
彼らはしばしば、ベースライン・オブ・ザ・アーツ・プロンプト法で訓練されたドメイン固有の手法を最大10.7%の精度で上回っている。
論文 参考訳(メタデータ) (2023-02-14T07:14:08Z) - Transferring Pre-trained Multimodal Representations with Cross-modal
Similarity Matching [49.730741713652435]
本論文では,大規模な事前学習型マルチモーダルモデルの表現を,小さなターゲットモデルに効果的に転送する手法を提案する。
教師なしトランスファーでは,教師モデルの表現を学習できるクロスモーダル類似性マッチング(CSM)を導入する。
テキストプロンプトをよりよくエンコードするために、入力テキストプロンプトの語彙的曖昧さを軽減するコンテキストベースのプロンプト拡張(CPA)を設計する。
論文 参考訳(メタデータ) (2023-01-07T17:24:11Z) - Learning Domain Invariant Prompt for Vision-Language Models [31.581652862478965]
本稿では,メタプロンプト(MetaPrompt)と呼ばれる未確認領域に一般化可能な,固有領域不変プロンプトを直接生成する新しいプロンプト学習パラダイムを提案する。
我々の手法は既存の手法より一貫して大幅に優れています。
論文 参考訳(メタデータ) (2022-12-08T11:23:24Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Communication-Efficient and Privacy-Preserving Feature-based Federated
Transfer Learning [11.758703301702012]
フェデレーション学習は、クライアントのプライバシを保存することで、関心が高まりつつある。
無線帯域が限られているため、無線リンクによるフェデレート学習の通信効率が重要となる。
上りペイロードを5桁以上削減する革新的な手法として,特徴に基づくフェデレーション・トランスファー・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-09-12T16:48:52Z) - CosSGD: Nonlinear Quantization for Communication-efficient Federated
Learning [62.65937719264881]
フェデレーション学習は、これらのクライアントのローカルデータを中央サーバに転送することなく、クライアント間での学習を促進する。
圧縮勾配降下のための非線形量子化を提案し、フェデレーションラーニングで容易に利用することができる。
本システムは,訓練過程の収束と精度を維持しつつ,通信コストを最大3桁まで削減する。
論文 参考訳(メタデータ) (2020-12-15T12:20:28Z) - Multi-Domain Spoken Language Understanding Using Domain- and Task-Aware
Parameterization [78.93669377251396]
音声言語理解は、各ドメインでトレーニングデータのセットが利用できる教師付き学習問題として対処されてきた。
既存の1つのアプローチは、ドメイン間の共同トレーニングに共有パラメータを使用して、マルチドメイン学習を行うことによって、この問題を解決する。
本稿では,ドメイン固有モデルパラメータとタスク固有モデルパラメータを用いて,この手法のパラメータ化を改善することを提案する。
論文 参考訳(メタデータ) (2020-04-30T15:15:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。