論文の概要: Understanding the Robustness of Multi-modal Contrastive Learning to
Distribution Shift
- arxiv url: http://arxiv.org/abs/2310.04971v1
- Date: Sun, 8 Oct 2023 02:25:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 13:55:30.600589
- Title: Understanding the Robustness of Multi-modal Contrastive Learning to
Distribution Shift
- Title(参考訳): 分布シフトに対するマルチモーダルコントラスト学習のロバスト性理解
- Authors: Yihao Xue, Siddharth Joshi, Dang Nguyen, Baharan Mirzasoleiman
- Abstract要約: CLIPのようなマルチモーダルな対照的な学習アプローチは、分散シフトに対して堅牢な学習表現において、顕著な成功を収めている。
実証的な成功にもかかわらず、そのような一般化可能な表現を学習するメカニズムは理解されていない。
- 参考スコア(独自算出の注目度): 15.995056923785567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, multimodal contrastive learning (MMCL) approaches, such as CLIP,
have achieved a remarkable success in learning representations that are robust
against distribution shift and generalize to new domains. Despite the empirical
success, the mechanism behind learning such generalizable representations is
not understood. In this work, we rigorously analyze this problem and uncover
two mechanisms behind MMCL's robustness: \emph{intra-class contrasting}, which
allows the model to learn features with a high variance, and \emph{inter-class
feature sharing}, where annotated details in one class help learning other
classes better. Both mechanisms prevent spurious features that are
over-represented in the training data to overshadow the generalizable core
features. This yields superior zero-shot classification accuracy under
distribution shift. Furthermore, we theoretically demonstrate the benefits of
using rich captions on robustness and explore the effect of annotating
different types of details in the captions. We validate our theoretical
findings through experiments, including a well-designed synthetic experiment
and an experiment involving training CLIP on MS COCO and evaluating the model
on variations of shifted ImageNet.
- Abstract(参考訳): 近年、CLIPのようなマルチモーダルコントラスト学習(MMCL)アプローチは、分散シフトに対して堅牢で、新しいドメインに一般化する学習表現において顕著な成功を収めている。
経験的な成功にもかかわらず、そのような一般化された表現を学ぶメカニズムは理解されていない。
本研究では、この問題を厳密に解析し、mmclの強固さの背後にある2つのメカニズムを明らかにする: \emph{intra-class contrasting}、高分散で特徴を学習できる \emph{inter-class feature sharing}、あるクラス内の注釈付き詳細が他のクラスをよりよく学ぶのに役立つ。
どちらのメカニズムも、トレーニングデータに過剰に表示されたスプリアスな特徴を防ぎ、一般化可能なコア機能をオーバーシャドウする。
これにより、分布シフト時のゼロショット分類精度が向上する。
さらに, リッチキャプションの利用がロバスト性に与える影響を理論的に実証し, キャプション内の様々な種類の詳細に注釈を付ける効果について検討する。
我々は,MS COCO上でCLIPを訓練し,変化した画像ネットの変動に関するモデルを評価することを含む,よく設計された合成実験や実験を通じて理論的知見を検証する。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - Self-Supervised Representation Learning with Meta Comprehensive
Regularization [11.387994024747842]
既存の自己管理フレームワークに組み込まれたCompMod with Meta Comprehensive Regularization (MCR)というモジュールを導入する。
提案したモデルを双方向最適化機構により更新し,包括的特徴を捉える。
本稿では,情報理論と因果対実的視点から提案手法の理論的支援を行う。
論文 参考訳(メタデータ) (2024-03-03T15:53:48Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - Provably Learning Diverse Features in Multi-View Data with Midpoint Mixup [14.37428912254029]
Mixupは、データポイントとラベルのランダムな凸組み合わせを使用したトレーニングに依存する、データ拡張技術である。
各クラスが複数の関連する特徴(あるいはビュー)を持ち、クラスを正しく予測できるような分類問題に焦点をあてる。
実験的リスク最小化を用いた2層畳み込みネットワークの学習は, クラス毎に2つの特徴を持つ非自明なデータ分布のクラスでは, ほぼすべてのクラスで1つの特徴しか学習できない一方で, Mixup の特定のインスタンス化による学習は各クラスで2つの特徴の学習に成功していることを示す。
論文 参考訳(メタデータ) (2022-10-24T18:11:37Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z) - Weak Augmentation Guided Relational Self-Supervised Learning [80.0680103295137]
本稿では、異なるインスタンス間の関係をモデル化して表現を学習する新しいリレーショナル自己教師型学習(ReSSL)フレームワークを提案する。
提案手法では,異なるインスタンス間でのペアワイズ類似度の分布を,テクトitrelationmetricとして高めている。
実験の結果,提案したReSSLは,ネットワークアーキテクチャの異なる最先端手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-03-16T16:14:19Z) - Trusted Multi-View Classification [76.73585034192894]
本稿では,信頼された多視点分類と呼ばれる新しい多視点分類手法を提案する。
さまざまなビューをエビデンスレベルで動的に統合することで、マルチビュー学習のための新しいパラダイムを提供する。
提案アルゴリズムは,分類信頼性とロバスト性の両方を促進するために,複数のビューを併用する。
論文 参考訳(メタデータ) (2021-02-03T13:30:26Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。