Fugu-MT 論文翻訳(概要): Test-Time Distribution Normalization for Contrastively Learned Vision-language Models

論文の概要: Test-Time Distribution Normalization for Contrastively Learned Vision-language Models

arxiv url: http://arxiv.org/abs/2302.11084v2
Date: Wed, 18 Oct 2023 23:06:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 20:51:37.772522
Title: Test-Time Distribution Normalization for Contrastively Learned Vision-language Models
Title（参考訳）: コントラスト学習型視覚言語モデルのテスト時間分布正規化
Authors: Yifei Zhou, Juntao Ren, Fengyu Li, Ramin Zabih, Ser-Nam Lim
Abstract要約: CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
参考スコア（独自算出の注目度）: 39.66329310098645
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Advances in the field of vision-language contrastive learning have made it possible for many downstream applications to be carried out efficiently and accurately by simply taking the dot product between image and text representations. One of the most representative approaches proposed recently known as CLIP has garnered widespread adoption due to its effectiveness. CLIP is trained with an InfoNCE loss that takes into account both positive and negative samples to help learn a much more robust representation space. This paper reveals that the common downstream practice of taking a dot product is only a zeroth-order approximation of the optimization goal, resulting in a loss of information during test-time. Intuitively, since the model has been optimized based on the InfoNCE loss, test-time procedures should also be in alignment. The question lies in how one can retrieve any semblance of negative samples information during inference in a computationally efficient way. To this end, we propose Distribution Normalization (DN), where we approximate the mean representation of a batch of test samples and use such a mean to represent what would be analogous to negative samples in the InfoNCE loss. DN requires no retraining or fine-tuning and can be effortlessly applied during inference. Extensive experiments on a wide variety of downstream tasks exhibit a clear advantage of DN over the dot product on top of other existing test-time augmentation methods.
Abstract（参考訳）: 視覚言語によるコントラスト学習の分野での進歩により、画像とテキストの表現のドット積を取るだけで、多くの下流アプリケーションが効率的に正確に実行できるようになった。 CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。 CLIPは、より堅牢な表現空間を学ぶのに役立つ正と負の両方のサンプルを考慮したInfoNCE損失でトレーニングされている。本稿では,ドット積を取ることの共通する下流慣行が最適化目標の0次近似に過ぎず,テスト中に情報が失われることを明らかにする。直感的には、モデルはInfoNCEの損失に基づいて最適化されているので、テスト時間プロシージャもアライメントされるべきである。問題は、計算効率のよい方法で推論中に負のサンプル情報の類似性を取得する方法にある。そこで,本研究では分散正規化 (dn) を提案する。ここではテストサンプルのバッチの平均表現を近似し,その平均を用いて情報損失における負のサンプルと類似するものを表現する。 DNは再訓練や微調整を必要とせず、推論中に不注意に適用することができる。さまざまなダウンストリームタスクに対する大規模な実験は、既存のテスト時間拡張メソッドに加えて、ドット製品よりもDNの明確な優位性を示している。

関連論文リスト

BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-10-20T15:58:43Z)
DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。 Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文参考訳（メタデータ） (2024-09-28T15:03:28Z)
Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-12-20T19:29:37Z)
Rethinking Prototypical Contrastive Learning through Alignment, Uniformity and Correlation [24.794022951873156]
我々は、アライメント、均一性、相関(PAUC)を通して、プロトタイプ表現を学ぶことを提案する。具体的には,(1)正の原型から埋め込みを抽出するアライメント損失,(2)原型レベルの特徴を均一に分配するアライメント損失,(3)原型レベルの特徴間の多様性と識別性を増大させる相関損失を補正する。
論文参考訳（メタデータ） (2022-10-18T22:33:12Z)
Siamese Prototypical Contrastive Learning [24.794022951873156]
コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。本稿では,単純かつ効果的なコントラスト学習フレームワークを導入することで,この問題に対処する。重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。
論文参考訳（メタデータ） (2022-08-18T13:25:30Z)
Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文参考訳（メタデータ） (2021-05-27T08:38:29Z)
Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文参考訳（メタデータ） (2021-02-09T20:28:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。