論文の概要: Distribution Normalization: An "Effortless" Test-Time Augmentation for
Contrastively Learned Visual-language Models
- arxiv url: http://arxiv.org/abs/2302.11084v1
- Date: Wed, 22 Feb 2023 01:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 16:35:48.225031
- Title: Distribution Normalization: An "Effortless" Test-Time Augmentation for
Contrastively Learned Visual-language Models
- Title(参考訳): 分布正規化:コントラスト学習による視覚モデルのための「感情のない」テスト時間拡張
- Authors: Yifei Zhou, Juntao Ren, Fengyu Li, Ramin Zabih, Ser-Nam Lim
- Abstract要約: 最近CLIPとして提案された最も代表的なアプローチの1つは、その有効性のために急速に広く採用されている。
しかし,本論文では,ドット積を取るというダウンストリームの一般的な実践が最適化目標の0次近似に過ぎないことを明らかにした。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
- 参考スコア(独自算出の注目度): 26.80109084026645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in the field of visual-language contrastive learning have made it
possible for many downstream applications to be carried out efficiently and
accurately by simply taking the dot product between image and text
representations. One of the most representative approaches proposed recently
known as CLIP has quickly garnered widespread adoption due to its
effectiveness. CLIP is trained with an InfoNCE loss that takes into account
both positive and negative samples to help learn a much more robust
representation space. This paper however reveals that the common downstream
practice of taking a dot product is only a zeroth-order approximation of the
optimization goal, resulting in a loss of information during test-time.
Intuitively, since the model has been optimized based on the InfoNCE loss,
test-time procedures should ideally also be in alignment. The question lies in
how one can retrieve any semblance of negative samples information during
inference. We propose Distribution Normalization (DN), where we approximate the
mean representation of a batch of test samples and use such a mean to represent
what would be analogous to negative samples in the InfoNCE loss. DN requires no
retraining or fine-tuning and can be effortlessly applied during inference.
Extensive experiments on a wide variety of downstream tasks exhibit a clear
advantage of DN over the dot product.
- Abstract(参考訳): 視覚言語によるコントラスト学習の分野での進歩により、画像とテキストの表現のドット積を取るだけで、多くの下流アプリケーションが効率的に正確に実行できるようになった。
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために急速に普及している。
CLIPは、より堅牢な表現空間を学ぶのに役立つ正と負の両方のサンプルを考慮したInfoNCE損失でトレーニングされている。
しかし,本論文では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
直感的には、モデルはInfoNCEの損失に基づいて最適化されているので、テスト時間プロシージャも理想的には一致しているはずです。
問題は、推論中に負のサンプル情報のあらゆる類似性を取得する方法にある。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
DNは再訓練や微調整を必要とせず、推論中に不注意に適用することができる。
様々な下流タスクに関する大規模な実験は、ドット積よりもDNの明確な優位性を示している。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Rethinking Prototypical Contrastive Learning through Alignment,
Uniformity and Correlation [24.794022951873156]
我々は、アライメント、均一性、相関(PAUC)を通して、プロトタイプ表現を学ぶことを提案する。
具体的には,(1)正の原型から埋め込みを抽出するアライメント損失,(2)原型レベルの特徴を均一に分配するアライメント損失,(3)原型レベルの特徴間の多様性と識別性を増大させる相関損失を補正する。
論文 参考訳(メタデータ) (2022-10-18T22:33:12Z) - Siamese Prototypical Contrastive Learning [24.794022951873156]
コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。
本稿では,単純かつ効果的なコントラスト学習フレームワークを導入することで,この問題に対処する。
重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。
論文 参考訳(メタデータ) (2022-08-18T13:25:30Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。