論文の概要: On the Generalization of Multi-modal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2306.04272v1
- Date: Wed, 7 Jun 2023 09:13:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-08 15:18:08.541895
- Title: On the Generalization of Multi-modal Contrastive Learning
- Title(参考訳): マルチモーダルコントラスト学習の一般化について
- Authors: Qi Zhang, Yifei Wang, Yisen Wang
- Abstract要約: MMCLがマルチモーダルペアから有用な視覚表現を抽出する方法について検討する。
テキストペアは、より意味論的に一貫性があり、多様な正のペアを誘導することを示す。
この発見に触発されて,イメージネット上でのSSCLのダウンストリーム性能を大幅に向上させるCLIP誘導再サンプリング手法を提案する。
- 参考スコア(独自算出の注目度): 21.849681446573257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal contrastive learning (MMCL) has recently garnered considerable
interest due to its superior performance in visual tasks, achieved by embedding
multi-modal data, such as visual-language pairs. However, there still lack
theoretical understandings of how MMCL extracts useful visual representation
from multi-modal pairs, and particularly, how MMCL outperforms previous
approaches like self-supervised contrastive learning (SSCL). In this paper, by
drawing an intrinsic connection between MMCL and asymmetric matrix
factorization, we establish the first generalization guarantees of MMCL for
visual downstream tasks. Based on this framework, we further unify MMCL and
SSCL by showing that MMCL implicitly performs SSCL with (pseudo) positive pairs
induced by text pairs. Through this unified perspective, we characterize the
advantage of MMCL by showing that text pairs induce more semantically
consistent and diverse positive pairs, which, according to our analysis,
provably benefit downstream generalization. Inspired by this finding, we
propose CLIP-guided resampling methods to significantly improve the downstream
performance of SSCL on ImageNet by leveraging multi-modal information. Code is
available at https://github.com/PKU-ML/CLIP-Help-SimCLR.
- Abstract(参考訳): マルチモーダル・コントラッシブ・ラーニング(MMCL)は、視覚的タスクにおいて優れた性能を持つため、視覚言語対のようなマルチモーダルデータを埋め込むことによって、近年大きな関心を集めている。
しかし、MMCLがマルチモーダル対からどのように有用な視覚表現を抽出するか、特にMMCLが自己教師付きコントラスト学習(SSCL)のような従来のアプローチよりも優れているかという理論的理解はいまだにない。
本稿では、MMCLと非対称行列分解との本質的な接続を描画することにより、視覚的下流タスクに対するMMCLの最初の一般化保証を確立する。
この枠組みに基づいて,テキストペアによって誘導される(擬)正のペアで,MMCLが暗黙的にSSCLを実行することを示すことにより,MMCLとSSCLをさらに統一する。
この統一的な視点を通して、テキストペアがより意味的に一貫性があり、多様なポジティブペアを誘導することを示すことによって、mmclの利点を特徴づける。
そこで本研究では,マルチモーダル情報を活用することにより,imagenet上のssclのダウンストリーム性能を大幅に向上させるクリップガイド再サンプリング手法を提案する。
コードはhttps://github.com/PKU-ML/CLIP-Help-SimCLRで入手できる。
関連論文リスト
- Recent Advances of Multimodal Continual Learning: A Comprehensive Survey [64.82070119713207]
本研究は,マルチモーダル連続学習法に関する総合的な調査である。
既存のMMCLメソッドは,正規化ベース,アーキテクチャベース,リプレイベース,プロンプトベースという4つのカテゴリに分類される。
今後の研究・開発への道筋について論じる。
論文 参考訳(メタデータ) (2024-10-07T13:10:40Z) - Multimodal Contrastive In-Context Learning [0.9120312014267044]
本稿では,Large Language Models (LLMs) における勾配なしインコンテキスト学習 (ICL) の理解を高めるために,新しいマルチモーダルコントラスト型インコンテキスト学習フレームワークを提案する。
まず、実世界におけるICLの対照的な解釈を示し、ICLの差別化要因としてキー値表現の距離を示す。
第2に、実世界のデータセットに対するマルチモーダル入力フォーマットにおけるバイアスに対処する分析フレームワークを開発する。
第3に、ヘイトフルミームの検出の有効性を示すICLのオンザフライアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-23T10:10:01Z) - From Introspection to Best Practices: Principled Analysis of Demonstrations in Multimodal In-Context Learning [47.82447085244952]
マルチモーダル ICL では,タスクごとにモダリティが異なることが示される。
タスク固有のモダリティの影響に導かれ、ICL性能を高めるためのモダリティ駆動型実証戦略を推奨する。
論文 参考訳(メタデータ) (2024-07-01T01:57:21Z) - SemanticMIM: Marring Masked Image Modeling with Semantics Compression for General Visual Representation [13.013776924941205]
SemanticMIMは、一般的な視覚表現のためのマスク付き画像モデリング(MIM)とコントラスト学習(CL)の利点を統合するためのフレームワークである。
我々はCLとMIMの徹底的な比較分析を行い、それらの相補的優位性は2つの相、すなわち圧縮と再構成から生じることを明らかにした。
我々は,SemanticMIMがCLとMIMの利点を効果的に実現し,性能と特徴線形分離性を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2024-06-15T15:39:32Z) - RecDCL: Dual Contrastive Learning for Recommendation [65.6236784430981]
本稿では、RecDCLという2つのコントラスト学習推薦フレームワークを提案する。
RecDCLでは、FCLの目的は、ユーザとイテムの正のペアに対する冗長なソリューションを排除することである。
BCLの目的は、表現の堅牢性を高めるために出力ベクトルにコントラスト埋め込みを生成するために利用される。
論文 参考訳(メタデータ) (2024-01-28T11:51:09Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
Cross-Modal Representations [14.355743915598554]
マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
XM-CLRは、異なるモードからインスタンスの多重折りたたみ観測の関係を明示的にモデル化し、学習する。
その結果,マルチフォールドデータの表現性を向上させる上で,MXM-CLRの優位性が示された。
論文 参考訳(メタデータ) (2023-03-20T02:51:53Z) - Understanding Multimodal Contrastive Learning and Incorporating Unpaired
Data [19.72282903349282]
マルチモーダル・コントラッシブ・ラーニング(MMCL)における非線形損失関数の一般クラスを示す。
MMCLの特徴学習能力は,各モダリティに適用される一助的コントラスト学習能力よりも優れていることを示す。
追加の未ペアデータにアクセスできる場合、追加の未ペアデータを含む新たなMMCL損失を提案する。
論文 参考訳(メタデータ) (2023-02-13T10:11:05Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Learning Visual Representation from Modality-Shared Contrastive
Language-Image Pre-training [88.80694147730883]
本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
論文 参考訳(メタデータ) (2022-07-26T05:19:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。