論文の概要: Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data
- arxiv url: http://arxiv.org/abs/2302.06232v1
- Date: Mon, 13 Feb 2023 10:11:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 16:07:47.440765
- Title: Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data
- Title(参考訳): マルチモーダルコントラスト学習の理解と非ペアデータの導入
- Authors: Ryumei Nakada, Halil Ibrahim Gulluk, Zhun Deng, Wenlong Ji, James Zou,
Linjun Zhang
- Abstract要約: マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。
MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。
追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
- 参考スコア(独自算出の注目度): 19.72282903349282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language-supervised vision models have recently attracted great attention in
computer vision. A common approach to build such models is to use contrastive
learning on paired data across the two modalities, as exemplified by
Contrastive Language-Image Pre-Training (CLIP). In this paper, under linear
representation settings, (i) we initiate the investigation of a general class
of nonlinear loss functions for multimodal contrastive learning (MMCL)
including CLIP loss and show its connection to singular value decomposition
(SVD). Namely, we show that each step of loss minimization by gradient descent
can be seen as performing SVD on a contrastive cross-covariance matrix. Based
on this insight, (ii) we analyze the performance of MMCL. We quantitatively
show that the feature learning ability of MMCL can be better than that of
unimodal contrastive learning applied to each modality even under the presence
of wrongly matched pairs. This characterizes the robustness of MMCL to noisy
data. Furthermore, when we have access to additional unpaired data, (iii) we
propose a new MMCL loss that incorporates additional unpaired datasets. We show
that the algorithm can detect the ground-truth pairs and improve performance by
fully exploiting unpaired datasets. The performance of the proposed algorithm
was verified by numerical experiments.
- Abstract(参考訳): 言語による視覚モデルは最近コンピュータビジョンに大きな注目を集めている。
このようなモデルを構築するための一般的なアプローチは、Contrastive Language- Image Pre-Training (CLIP) の例のように、2つのモードをまたいだペアデータに対してコントラッシブ学習を使用することである。
本稿では,線形表現設定について述べる。
(i)CLIP損失を含むマルチモーダルコントラスト学習(MMCL)における非線形損失関数の一般クラスの調査を開始し,特異値分解(SVD)との関連を示す。
すなわち、勾配降下による損失最小化の各ステップは、対照的な相互共分散行列上でSVDを行うように見える。
この洞察に基づいて
(2)MMCLの性能を解析する。
その結果,mmclの特徴学習能力は,不一致ペアの存在下でも各モダリティに適用された単調なコントラスト学習能力よりも優れていることが示された。
これはMMCLのノイズデータに対する堅牢性を特徴付ける。
さらに、追加の未ペアデータにアクセスできれば、
(iii)追加の未ペアデータセットを組み込んだ新しいMMCL損失を提案する。
提案アルゴリズムは,未使用のデータセットをフル活用することにより,地対検出と性能向上を実現する。
提案アルゴリズムの性能を数値実験により検証した。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
複数モーダルな)自己教師付き表現学習のための連続領域における識別確率モデル問題について検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Dataset Condensation with Latent Quantile Matching [5.466962214217334]
電流分布マッチング (DM) に基づく直流法は, 合成外乱と実外乱の遅延埋め込みの平均をマッチングすることにより, 合成データセットを学習する。
本稿では,2つの分布間の適合試験統計量の良さを最小化するために,遅延埋め込みの量子化と一致する潜在量子マッチング(LQM)を提案する。
論文 参考訳(メタデータ) (2024-06-14T09:20:44Z) - Learning the Unlearned: Mitigating Feature Suppression in Contrastive Learning [45.25602203155762]
自己監督型コントラスト学習は、ラベルのないデータから高品質な表現を導き出すのに有効であることが証明されている。
単目的学習とマルチモーダル学習の両方を妨げる大きな課題は、特徴抑制である。
本稿では,新しいモデルに依存しないマルチステージコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-19T04:13:33Z) - Towards Better Modeling with Missing Data: A Contrastive Learning-based
Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。
現在のアプローチは、特徴計算とラベル予測に分類される。
本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T13:16:24Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - Performance Indicator in Multilinear Compressive Learning [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは,多次元信号を扱う際の知覚と学習のステップを効率的に最適化するために提案された。
本稿では,入力信号の分解能,圧縮された測定値数,MCLの学習性能の関係を解析する。
論文 参考訳(メタデータ) (2020-09-22T11:27:50Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。