論文の概要: Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models
- arxiv url: http://arxiv.org/abs/2302.11084v2
- Date: Wed, 18 Oct 2023 23:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:51:37.772522
- Title: Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models
- Title(参考訳): コントラスト学習型視覚言語モデルのテスト時間分布正規化
- Authors: Yifei Zhou, Juntao Ren, Fengyu Li, Ramin Zabih, Ser-Nam Lim
- Abstract要約: CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
- 参考スコア(独自算出の注目度): 39.66329310098645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in the field of vision-language contrastive learning have made it
possible for many downstream applications to be carried out efficiently and
accurately by simply taking the dot product between image and text
representations. One of the most representative approaches proposed recently
known as CLIP has garnered widespread adoption due to its effectiveness. CLIP
is trained with an InfoNCE loss that takes into account both positive and
negative samples to help learn a much more robust representation space. This
paper reveals that the common downstream practice of taking a dot product is
only a zeroth-order approximation of the optimization goal, resulting in a loss
of information during test-time. Intuitively, since the model has been
optimized based on the InfoNCE loss, test-time procedures should also be in
alignment. The question lies in how one can retrieve any semblance of negative
samples information during inference in a computationally efficient way. To
this end, we propose Distribution Normalization (DN), where we approximate the
mean representation of a batch of test samples and use such a mean to represent
what would be analogous to negative samples in the InfoNCE loss. DN requires no
retraining or fine-tuning and can be effortlessly applied during inference.
Extensive experiments on a wide variety of downstream tasks exhibit a clear
advantage of DN over the dot product on top of other existing test-time
augmentation methods.
- Abstract(参考訳): 視覚言語によるコントラスト学習の分野での進歩により、画像とテキストの表現のドット積を取るだけで、多くの下流アプリケーションが効率的に正確に実行できるようになった。
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
CLIPは、より堅牢な表現空間を学ぶのに役立つ正と負の両方のサンプルを考慮したInfoNCE損失でトレーニングされている。
本稿では,ドット積を取ることの共通する下流慣行が最適化目標の0次近似に過ぎず,テスト中に情報が失われることを明らかにする。
直感的には、モデルはInfoNCEの損失に基づいて最適化されているので、テスト時間プロシージャもアライメントされるべきである。
問題は、計算効率のよい方法で推論中に負のサンプル情報の類似性を取得する方法にある。
そこで,本研究では分散正規化 (dn) を提案する。ここではテストサンプルのバッチの平均表現を近似し,その平均を用いて情報損失における負のサンプルと類似するものを表現する。
DNは再訓練や微調整を必要とせず、推論中に不注意に適用することができる。
さまざまなダウンストリームタスクに対する大規模な実験は、既存のテスト時間拡張メソッドに加えて、ドット製品よりもDNの明確な優位性を示している。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Rethinking Prototypical Contrastive Learning through Alignment,
Uniformity and Correlation [24.794022951873156]
我々は、アライメント、均一性、相関(PAUC)を通して、プロトタイプ表現を学ぶことを提案する。
具体的には,(1)正の原型から埋め込みを抽出するアライメント損失,(2)原型レベルの特徴を均一に分配するアライメント損失,(3)原型レベルの特徴間の多様性と識別性を増大させる相関損失を補正する。
論文 参考訳(メタデータ) (2022-10-18T22:33:12Z) - Siamese Prototypical Contrastive Learning [24.794022951873156]
コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。
本稿では,単純かつ効果的なコントラスト学習フレームワークを導入することで,この問題に対処する。
重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。
論文 参考訳(メタデータ) (2022-08-18T13:25:30Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。