論文の概要: Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models
- arxiv url: http://arxiv.org/abs/2302.11084v2
- Date: Wed, 18 Oct 2023 23:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:51:37.772522
- Title: Test-Time Distribution Normalization for Contrastively Learned
Vision-language Models
- Title(参考訳): コントラスト学習型視覚言語モデルのテスト時間分布正規化
- Authors: Yifei Zhou, Juntao Ren, Fengyu Li, Ramin Zabih, Ser-Nam Lim
- Abstract要約: CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
本稿では,ドット製品のダウンストリーム化は最適化目標の0次近似に過ぎず,テスト時間中に情報が失われることを明らかにする。
本研究では, 分散正規化(DN)を提案し, テストサンプルのバッチの平均表現を近似し, InfoNCE損失における負のサンプルと類似するものを表現する。
- 参考スコア(独自算出の注目度): 39.66329310098645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in the field of vision-language contrastive learning have made it
possible for many downstream applications to be carried out efficiently and
accurately by simply taking the dot product between image and text
representations. One of the most representative approaches proposed recently
known as CLIP has garnered widespread adoption due to its effectiveness. CLIP
is trained with an InfoNCE loss that takes into account both positive and
negative samples to help learn a much more robust representation space. This
paper reveals that the common downstream practice of taking a dot product is
only a zeroth-order approximation of the optimization goal, resulting in a loss
of information during test-time. Intuitively, since the model has been
optimized based on the InfoNCE loss, test-time procedures should also be in
alignment. The question lies in how one can retrieve any semblance of negative
samples information during inference in a computationally efficient way. To
this end, we propose Distribution Normalization (DN), where we approximate the
mean representation of a batch of test samples and use such a mean to represent
what would be analogous to negative samples in the InfoNCE loss. DN requires no
retraining or fine-tuning and can be effortlessly applied during inference.
Extensive experiments on a wide variety of downstream tasks exhibit a clear
advantage of DN over the dot product on top of other existing test-time
augmentation methods.
- Abstract(参考訳): 視覚言語によるコントラスト学習の分野での進歩により、画像とテキストの表現のドット積を取るだけで、多くの下流アプリケーションが効率的に正確に実行できるようになった。
CLIPとして最近提案された最も代表的なアプローチの1つは、その有効性のために広く採用されている。
CLIPは、より堅牢な表現空間を学ぶのに役立つ正と負の両方のサンプルを考慮したInfoNCE損失でトレーニングされている。
本稿では,ドット積を取ることの共通する下流慣行が最適化目標の0次近似に過ぎず,テスト中に情報が失われることを明らかにする。
直感的には、モデルはInfoNCEの損失に基づいて最適化されているので、テスト時間プロシージャもアライメントされるべきである。
問題は、計算効率のよい方法で推論中に負のサンプル情報の類似性を取得する方法にある。
そこで,本研究では分散正規化 (dn) を提案する。ここではテストサンプルのバッチの平均表現を近似し,その平均を用いて情報損失における負のサンプルと類似するものを表現する。
DNは再訓練や微調整を必要とせず、推論中に不注意に適用することができる。
さまざまなダウンストリームタスクに対する大規模な実験は、既存のテスト時間拡張メソッドに加えて、ドット製品よりもDNの明確な優位性を示している。
関連論文リスト
- Efficient distributed representations beyond negative sampling [4.5687771576879594]
本稿では,分散表現を効率よく学習する手法について述べる。
我々は,sotfmax正規化定数を線形時間で推定でき,効率的な最適化戦略を設計できることを示した。
論文 参考訳(メタデータ) (2023-03-30T15:48:26Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Rethinking Prototypical Contrastive Learning through Alignment,
Uniformity and Correlation [24.794022951873156]
我々は、アライメント、均一性、相関(PAUC)を通して、プロトタイプ表現を学ぶことを提案する。
具体的には,(1)正の原型から埋め込みを抽出するアライメント損失,(2)原型レベルの特徴を均一に分配するアライメント損失,(3)原型レベルの特徴間の多様性と識別性を増大させる相関損失を補正する。
論文 参考訳(メタデータ) (2022-10-18T22:33:12Z) - Siamese Prototypical Contrastive Learning [24.794022951873156]
コントラスト型自己教師学習(Contrastive Self-supervised Learning, CSL)は、大規模データから意味のある視覚的表現を教師なしアプローチで学習する実践的ソリューションである。
本稿では,単純かつ効果的なコントラスト学習フレームワークを導入することで,この問題に対処する。
重要な洞察は、シアメスタイルのメートル法損失を用いて、原型間特徴間の距離を増大させながら、原型内特徴と一致させることである。
論文 参考訳(メタデータ) (2022-08-18T13:25:30Z) - Rethinking Collaborative Metric Learning: Toward an Efficient
Alternative without Negative Sampling [156.7248383178991]
コラボレーティブ・メトリック・ラーニング(CML)パラダイムはレコメンデーション・システム(RS)分野に広く関心を集めている。
負のサンプリングが一般化誤差のバイアス付き推定に繋がることがわかった。
そこで我々は,SFCML (textitSampling-Free Collaborative Metric Learning) という名前のCMLに対して,負のサンプリングを伴わない効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-06-23T08:50:22Z) - Agree to Disagree: Diversity through Disagreement for Better
Transferability [54.308327969778155]
本稿では,D-BAT(Diversity-By-dis-Agreement Training)を提案する。
我々は、D-BATが一般化された相違の概念から自然に現れることを示す。
論文 参考訳(メタデータ) (2022-02-09T12:03:02Z) - Rethinking InfoNCE: How Many Negative Samples Do You Need? [54.146208195806636]
半定量的理論フレームワークを用いて, InfoNCE に最適化された負のサンプル数について検討した。
トレーニングの有効性関数を最大化する$K$値を用いて,最適負サンプリング比を推定する。
論文 参考訳(メタデータ) (2021-05-27T08:38:29Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。