Fugu-MT 論文翻訳(概要): On the Comparison between Multi-modal and Single-modal Contrastive Learning

論文の概要: On the Comparison between Multi-modal and Single-modal Contrastive Learning

arxiv url: http://arxiv.org/abs/2411.02837v1
Date: Tue, 05 Nov 2024 06:21:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.498938
Title: On the Comparison between Multi-modal and Single-modal Contrastive Learning
Title（参考訳）: マルチモーダルコントラスト学習とシングルモーダルコントラスト学習の比較
Authors: Wei Huang, Andi Han, Yongqiang Chen, Yuan Cao, Zhiqiang Xu, Taiji Suzuki,
Abstract要約: マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
参考スコア（独自算出の注目度）: 50.74988548106031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal contrastive learning with language supervision has presented a paradigm shift in modern machine learning. By pre-training on a web-scale dataset, multi-modal contrastive learning can learn high-quality representations that exhibit impressive robustness and transferability. Despite its empirical success, the theoretical understanding is still in its infancy, especially regarding its comparison with single-modal contrastive learning. In this work, we introduce a feature learning theory framework that provides a theoretical foundation for understanding the differences between multi-modal and single-modal contrastive learning. Based on a data generation model consisting of signal and noise, our analysis is performed on a ReLU network trained with the InfoMax objective function. Through a trajectory-based optimization analysis and generalization characterization on downstream tasks, we identify the critical factor, which is the signal-to-noise ratio (SNR), that impacts the generalizability in downstream tasks of both multi-modal and single-modal contrastive learning. Through the cooperation between the two modalities, multi-modal learning can achieve better feature learning, leading to improvements in performance in downstream tasks compared to single-modal learning. Our analysis provides a unified framework that can characterize the optimization and generalization of both single-modal and multi-modal contrastive learning. Empirical experiments on both synthetic and real-world datasets further consolidate our theoretical findings.
Abstract（参考訳）: 言語指導を伴うマルチモーダルコントラスト学習は、現代の機械学習におけるパラダイムシフトを示している。 Webスケールのデータセットで事前トレーニングを行うことで、マルチモーダルコントラスト学習は、印象的な堅牢性と伝達可能性を示す高品質な表現を学習することができる。実証的な成功にもかかわらず、理論的な理解はまだ生まれたばかりであり、特にシングルモーダル・コントラスト学習との比較についてである。本研究では,マルチモーダル学習と単一モーダル学習の相違を理解するための理論的基盤を提供する特徴学習理論フレームワークを提案する。信号と雑音からなるデータ生成モデルに基づいて,InfoMaxの目的関数をトレーニングしたReLUネットワーク上で解析を行う。下流タスクの軌道に基づく最適化分析と一般化による特徴付けにより、マルチモーダル・シングルモーダル・コントラスト学習の下流タスクにおける一般化性に影響を与える信号対雑音比(SNR)の臨界因子を同定する。 2つのモードの協調により、マルチモーダル学習はより優れた特徴学習を実現することができ、単一のモーダル学習と比較して下流タスクのパフォーマンスが向上する。我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。人工と実世界の両方のデータセットに関する実証実験は、我々の理論的な知見をさらに強化する。

関連論文リスト

Analyzing the Impact of Multimodal Perception on Sample Complexity and Optimization Landscapes in Imitation Learning [0.0]
適切に統合されたマルチモーダルポリシーは、より厳密な一般化バウンダリと、より好ましい最適化のランドスケープを実現することができることを示す。 PerActやCLIPortのようなマルチモーダルアーキテクチャが優れたパフォーマンスを実現する理由を説明する理論的フレームワークの包括的なレビューを提供する。
論文参考訳（メタデータ） (2025-08-07T07:01:53Z)
VL-Cogito: Progressive Curriculum Reinforcement Learning for Advanced Multimodal Reasoning [69.44871115752055]
本稿では,PCuRL(Progressive Curriculum Reinforcement Learning)フレームワークを用いて学習した高度なマルチモーダル推論モデルを提案する。 PCuRLは、難易度が徐々に増大するタスクを通じてモデルを体系的にガイドし、多様なマルチモーダルコンテキストにおける推論能力を大幅に向上させる。本フレームワークは,(1)連続するRLトレーニング段階におけるトレーニング難度を動的に調整するオンライン難易度重み付け機構,(2)タスク複雑度に応じて推論経路長を適応的に調整する動的長報奨機構,の2つの重要なイノベーションを紹介する。
論文参考訳（メタデータ） (2025-07-30T12:23:21Z)
Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文参考訳（メタデータ） (2025-06-05T16:10:47Z)
Multi-modal contrastive learning adapts to intrinsic dimensions of shared latent variables [23.100488765078087]
マルチモーダルコントラスト学習から学習した表現の理論的性質について検討する。合成データセットと実世界のデータセットの両方の実験は、低次元および情報表現を学習する対照的な学習能力を示している。
論文参考訳（メタデータ） (2025-05-18T15:49:53Z)
Continual Multimodal Contrastive Learning [70.60542106731813]
マルチモーダル・コントラッシブ・ラーニング(MCL)は、異なるモーダルを整列させ、関節空間で多モーダル表現を生成する。マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文参考訳（メタデータ） (2025-03-19T07:57:08Z)
Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文参考訳（メタデータ） (2025-01-02T13:00:06Z)
Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,複数モーダルからインスタンスを識別するクロスモーダルなFew-Shot Learningタスクを提案する。本稿では,1つの段階からなる生成的転帰学習フレームワークを提案する。1つは豊富な一助データに対する学習を伴い,もう1つは新しいデータに適応するための転帰学習に焦点を当てる。以上の結果から,GTLは4つの異なるマルチモーダルデータセット間の最先端手法よりも優れた性能を示す。
論文参考訳（メタデータ） (2024-10-14T16:09:38Z)
MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。 MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文参考訳（メタデータ） (2024-05-28T01:19:13Z)
Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。 MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文参考訳（メタデータ） (2023-11-17T18:57:40Z)
Unified Multi-modal Unsupervised Representation Learning for Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。 UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文参考訳（メタデータ） (2023-11-06T13:56:57Z)
Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文参考訳（メタデータ） (2023-06-22T10:53:10Z)
On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文参考訳（メタデータ） (2023-05-02T07:15:10Z)
Identifiability Results for Multimodal Contrastive Learning [72.15237484019174]
本研究では,以前研究したマルチビュー設定よりも,より一般的な設定で共有要因を復元可能であることを示す。本研究は,マルチモーダル表現学習の理論的基盤を提供し,マルチモーダルコントラスト学習を実践的に効果的に設定する方法を説明する。
論文参考訳（メタデータ） (2023-03-16T09:14:26Z)
Improving the Modality Representation with Multi-View Contrastive Learning for Multimodal Sentiment Analysis [15.623293264871181]
コントラスト学習によるモダリティ表現の改良手法について検討した。我々は,多視点コントラスト学習を用いた3段階のフレームワークを考案し,特定の目的の表現を洗練させる。 3つのオープンデータセットで実験を行い、その結果、我々のモデルの進歩を示す。
論文参考訳（メタデータ） (2022-10-28T01:25:16Z)
Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文参考訳（メタデータ） (2022-10-26T08:24:15Z)
Learning Modality-Specific Representations with Self-Supervised Multi-Task Learning for Multimodal Sentiment Analysis [11.368438990334397]
我々は,独立した一助的指導を受けるための自己指導型学習戦略を開発する。我々は3つの公開マルチモーダルベースラインデータセットについて広範な実験を行った。提案手法は,人間の注釈付きアンモダルラベルと同等の性能を達成している。
論文参考訳（メタデータ） (2021-02-09T14:05:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。