論文の概要: Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift
- arxiv url: http://arxiv.org/abs/2310.04971v2
- Date: Sun, 17 Mar 2024 23:47:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 03:32:38.140565
- Title: Understanding the Robustness of Multi-modal Contrastive Learning to Distribution Shift
- Title(参考訳): 分散シフトに対するマルチモーダルコントラスト学習のロバスト性を理解する
- Authors: Yihao Xue, Siddharth Joshi, Dang Nguyen, Baharan Mirzasoleiman,
- Abstract要約: CLIPのようなマルチモーダルな対照的な学習アプローチは、分散シフトに対して堅牢な学習表現において、顕著な成功を収めている。
MMCLの強靭性の背後にある2つのメカニズムを同定する。
理論的には、リッチキャプションを用いたロバストネスの利点を実証し、キャプション内の様々な種類の詳細を注釈付けする効果を探求する。
- 参考スコア(独自算出の注目度): 14.641747166801133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multimodal contrastive learning (MMCL) approaches, such as CLIP, have achieved a remarkable success in learning representations that are robust against distribution shift and generalize to new domains. Despite the empirical success, the mechanism behind learning such generalizable representations is not understood. In this work, we rigorously analyze this problem and uncover two mechanisms behind MMCL's robustness: \emph{intra-class contrasting}, which allows the model to learn features with a high variance, and \emph{inter-class feature sharing}, where annotated details in one class help learning other classes better. Both mechanisms prevent spurious features that are over-represented in the training data to overshadow the generalizable core features. This yields superior zero-shot classification accuracy under distribution shift. Furthermore, we theoretically demonstrate the benefits of using rich captions on robustness and explore the effect of annotating different types of details in the captions. We validate our theoretical findings through experiments, including a well-designed synthetic experiment and an experiment involving training CLIP models on MSCOCO/Conceptual Captions and evaluating them on shifted ImageNets.
- Abstract(参考訳): 近年、CLIPのようなマルチモーダルコントラスト学習(MMCL)アプローチは、分散シフトに対して堅牢で、新しいドメインに一般化する学習表現において顕著な成功を収めている。
実証的な成功にもかかわらず、そのような一般化可能な表現を学習するメカニズムは理解されていない。
本研究では,この問題を厳密に分析し,MMCLの強靭性の背後にある2つのメカニズムを明らかにする。すなわち,高分散性で特徴を学習可能な \emph{intra-class contrasting} と,あるクラスにおける注釈付き詳細が他のクラスをよりよく学習するための \emph{inter-class feature sharing} である。
どちらのメカニズムも、トレーニングデータに過剰に表現された刺激的な特徴を防ぎ、一般化可能なコア特徴を覆い隠す。
これにより、分布シフト時のゼロショット分類精度が向上する。
さらに, リッチキャプションによるロバスト性向上のメリットを理論的に実証し, キャプション内の様々な種類の詳細に注釈を付ける効果について検討する。
MSCOCO/Conceptual CaptionsでCLIPモデルをトレーニングし、シフトしたイメージネット上で評価する実験を含む、よく設計された合成実験を含む実験を通して、理論的な結果を検証する。
関連論文リスト
- USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。
我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-12-12T12:20:27Z) - Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - A Theoretical Analysis of Self-Supervised Learning for Vision Transformers [66.08606211686339]
マスク付きオートエンコーダ(MAE)とコントラスト学習(CL)は異なる種類の表現をキャプチャする。
我々は,MAEとCLの両目的に対して,一層ソフトマックス型視覚変換器(ViT)のトレーニングダイナミクスについて検討した。
論文 参考訳(メタデータ) (2024-03-04T17:24:03Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - Provably Learning Diverse Features in Multi-View Data with Midpoint Mixup [14.37428912254029]
Mixupは、データポイントとラベルのランダムな凸組み合わせを使用したトレーニングに依存する、データ拡張技術である。
各クラスが複数の関連する特徴(あるいはビュー)を持ち、クラスを正しく予測できるような分類問題に焦点をあてる。
実験的リスク最小化を用いた2層畳み込みネットワークの学習は, クラス毎に2つの特徴を持つ非自明なデータ分布のクラスでは, ほぼすべてのクラスで1つの特徴しか学習できない一方で, Mixup の特定のインスタンス化による学習は各クラスで2つの特徴の学習に成功していることを示す。
論文 参考訳(メタデータ) (2022-10-24T18:11:37Z) - Weak Augmentation Guided Relational Self-Supervised Learning [80.0680103295137]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。
提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。
実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-16T16:14:19Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。