論文の概要: PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination
- arxiv url: http://arxiv.org/abs/2404.07520v2
- Date: Fri, 12 Apr 2024 17:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 12:17:41.976470
- Title: PromptSync: Bridging Domain Gaps in Vision-Language Models through Class-Aware Prototype Alignment and Discrimination
- Title(参考訳): PromptSync:クラスアウェアなプロトタイプアライメントと識別による視覚言語モデルにおけるドメインギャップのブリッジ
- Authors: Anant Khandelwal,
- Abstract要約: CLIPのようなビジョン言語(V-L)モデルのゼロショット一般化は、広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューで得られた平均クラス確率によって重み付けされたクラス認識型プロトタイプアライメントを採用する。
- 参考スコア(独自算出の注目度): 14.50214193838818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The potential for zero-shot generalization in vision-language (V-L) models such as CLIP has spurred their widespread adoption in addressing numerous downstream tasks. Previous methods have employed test-time prompt tuning to adapt the model to unseen domains, but they overlooked the issue of imbalanced class distributions. In this study, we explicitly address this problem by employing class-aware prototype alignment weighted by mean class probabilities obtained for the test sample and filtered augmented views. Additionally, we ensure that the class probabilities are as accurate as possible by performing prototype discrimination using contrastive learning. The combination of alignment and discriminative loss serves as a geometric regularizer, preventing the prompt representation from collapsing onto a single class and effectively bridging the distribution gap between the source and test domains. Our method, named PromptSync, synchronizes the prompts for each test sample on both the text and vision branches of the V-L model. In empirical evaluations on the domain generalization benchmark, our method outperforms previous best methods by 2.33% in overall performance, by 1% in base-to-novel generalization, and by 2.84% in cross-dataset transfer tasks.
- Abstract(参考訳): CLIPのような視覚言語(V-L)モデルにおけるゼロショット一般化の可能性は、多くの下流タスクに対処する上で広く採用されている。
従来の手法では、テスト時のプロンプトチューニングを使用して、モデルを目に見えない領域に適応させたが、不均衡なクラス分布の問題を見落としていた。
本研究では,テストサンプルとフィルタ付き拡張ビューの平均クラス確率を重み付けしたクラス認識型プロトタイプアライメントを用いて,この問題に対処する。
さらに,コントラスト学習を用いたプロトタイプ識別を行うことにより,クラス確率が可能な限り正確であることを保証する。
アライメントと差別的損失の組み合わせは幾何学的正則化器として機能し、迅速な表現が単一クラスに崩壊するのを防ぎ、ソースとテストドメイン間の分配ギャップを効果的にブリッジする。
提案手法はPmptSyncと呼ばれ,V-Lモデルのテキストとビジョンの両方で各テストサンプルのプロンプトを同期させる。
ドメイン一般化ベンチマークの実証的評価では,提案手法は,従来のベストメソッドよりも2.33%,ベース・ツー・ノーベル一般化では1%,クロスデータセット転送タスクでは2.84%,性能は2.33%向上した。
関連論文リスト
- BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Dual Adaptive Representation Alignment for Cross-domain Few-shot
Learning [58.837146720228226]
ベース知識から学習することで、限られたサポートサンプルを持つ新規なクエリを認識することを目的としている。
この設定の最近の進歩は、ベース知識と新しいクエリサンプルが同じドメインに分散されていることを前提としている。
本稿では,ターゲットドメインで利用可能なサンプルが極めて少ないドメイン間数ショット学習の問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-06-18T09:52:16Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Rethinking Prototypical Contrastive Learning through Alignment,
Uniformity and Correlation [24.794022951873156]
我々は、アライメント、均一性、相関(PAUC)を通して、プロトタイプ表現を学ぶことを提案する。
具体的には,(1)正の原型から埋め込みを抽出するアライメント損失,(2)原型レベルの特徴を均一に分配するアライメント損失,(3)原型レベルの特徴間の多様性と識別性を増大させる相関損失を補正する。
論文 参考訳(メタデータ) (2022-10-18T22:33:12Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - On Universal Black-Box Domain Adaptation [53.7611757926922]
実践的な展開という観点から,ドメイン適応の最小限の制約条件について検討する。
ソースモデルのインターフェースのみがターゲットドメインで利用可能であり、2つのドメイン間のラベル空間関係が異なることや未知であることが許されている。
対象試料の局所近傍における予測の整合性によって正規化された自己訓練フレームワークに統一することを提案する。
論文 参考訳(メタデータ) (2021-04-10T02:21:09Z) - Contrastive Prototype Learning with Augmented Embeddings for Few-Shot
Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。
クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。
いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文 参考訳(メタデータ) (2021-01-23T13:22:44Z) - Adaptive Prototypical Networks with Label Words and Joint Representation
Learning for Few-Shot Relation Classification [17.237331828747006]
本研究は,少ショット関係分類(FSRC)に焦点を当てる。
クラスプロトタイプの表現にラベル単語を追加するための適応的混合機構を提案する。
FewRelでは、異なる数ショット(FS)設定で実験が行われた。
論文 参考訳(メタデータ) (2021-01-10T11:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。