論文の概要: Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal
Data
- arxiv url: http://arxiv.org/abs/2401.08567v1
- Date: Tue, 16 Jan 2024 18:52:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 18:39:07.960929
- Title: Connect, Collapse, Corrupt: Learning Cross-Modal Tasks with Uni-Modal
Data
- Title(参考訳): Connect, Collapse, Corrupt: ユニモーダルデータによるクロスモーダルタスクの学習
- Authors: Yuhui Zhang, Elaine Sui, Serena Yeung-Levy
- Abstract要約: クロスモーダルなアプリケーションの構築は、限られたペアのマルチモーダルデータのために難しい。
近年の研究では、事前訓練されたマルチモーダルコントラスト表現空間を利用することで、ユニモーダルデータからクロスモーダルタスクを学習できることが示されている。
C3$ (Connect, Collapse, Corrupt) という3段階の手法を導入し、モダリティギャップを橋渡しし、埋め込みの交換性を高める。
- 参考スコア(独自算出の注目度): 10.908771426089512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building cross-modal applications is challenging due to limited paired
multi-modal data. Recent works have shown that leveraging a pre-trained
multi-modal contrastive representation space enables cross-modal tasks to be
learned from uni-modal data. This is based on the assumption that contrastive
optimization makes embeddings from different modalities interchangeable.
However, this assumption is under-explored due to the poorly understood
geometry of the multi-modal contrastive space, where a modality gap exists. In
our study, we provide a theoretical explanation of this space's geometry and
introduce a three-step method, $C^3$ (Connect, Collapse, Corrupt), to bridge
the modality gap, enhancing the interchangeability of embeddings. Our $C^3$
method significantly improves cross-modal learning from uni-modal data,
achieving state-of-the-art results on zero-shot image / audio / video
captioning and text-to-image generation.
- Abstract(参考訳): クロスモーダルアプリケーションの構築は、ペアのマルチモーダルデータに制限があるため、難しい。
近年の研究では、事前学習されたマルチモーダルコントラスト表現空間を利用することで、クロスモーダルなタスクをユニモーダルデータから学習できることが示されている。
これは、対照的な最適化が異なるモダリティから埋め込みを交換できるという仮定に基づいている。
しかし、この仮定は、モダリティギャップが存在するマルチモーダルコントラスト空間の理解が不十分な幾何学のため、未熟である。
本研究では,この空間の幾何学を理論的に説明し,モダリティギャップを橋渡しし埋め込みの交換性を高めるために,3段階の手法である$c^3$ (connect, collapse, corruption)を導入する。
今回の$c^3$法は,ユニモーダルデータからのクロスモーダル学習を大幅に改善し,ゼロショット画像,オーディオ/ビデオキャプション,テキスト対画像生成において最先端の結果を得る。
関連論文リスト
- MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。
MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。
また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文 参考訳(メタデータ) (2024-05-28T01:19:13Z) - Cross-BERT for Point Cloud Pretraining [61.762046503448936]
我々はクロスモーダルなBERTスタイルの自己教師型学習パラダイムであるCross-BERTを提案する。
不規則な点雲とスパースな点雲の事前訓練を容易にするために,2つの自己教師型タスクを設計し,相互モーダル相互作用を促進させる。
本研究は,3Dポイントクラウド表現の強化とBERTのモダリティ間の伝達能力を高めるために,クロスモーダルな2D知識を活用することの有効性を強調した。
論文 参考訳(メタデータ) (2023-12-08T08:18:12Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Deep Metric Loss for Multimodal Learning [3.8979646385036175]
マルチモーダル学習のための新しいテキストマルチモーダル損失パラダイムを提案する。
textMultiModal Losは、過剰適合による非効率な学習を防止し、マルチモーダルモデルを効率的に最適化する。
我々の損失は、最近のモデルの性能向上を実証的に示す。
論文 参考訳(メタデータ) (2023-08-21T06:04:30Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodality Helps Unimodality: Cross-Modal Few-Shot Learning with
Multimodal Models [61.97890177840515]
人間はクロスモーダル情報を使って、新しい概念を効率的に学習する。
異なるモダリティにまたがる少数ショット例から学習する,シンプルなクロスモーダル適応手法を提案する。
論文 参考訳(メタデータ) (2023-01-16T05:40:42Z) - CLIP-Driven Fine-grained Text-Image Person Re-identification [50.94827165464813]
TIReIDは、候補画像のプールから与えられたテキストクエリに対応する画像を取得することを目的としている。
TIReIDにおけるCLIPの強力な知識をフル活用するための,CLIP駆動のきめ細かい情報抽出フレームワーク(CFine)を提案する。
論文 参考訳(メタデータ) (2022-10-19T03:43:12Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z) - UNIMO: Towards Unified-Modal Understanding and Generation via
Cross-Modal Contrastive Learning [28.89401350391015]
単一モーダルとマルチモーダルの両方の理解と生成タスクに適応できる統一モーダルプリトレーニングアーキテクチャ、すなわちUNIMOを提案します。
非ペア化シングルモーダルデータは非常に豊富であるため、我々のモデルは、より一般化可能な表現を学ぶために、より大規模なデータを利用することができます。
論文 参考訳(メタデータ) (2020-12-31T02:46:47Z) - Cross-modal Center Loss [28.509817129759014]
クロスモーダル検索は、異なるモーダルからデータに対する識別的およびモーダル不変の特徴を学習することを目的としている。
本稿では,メタデータを用いたクロスモーダル検索フレームワークのコンポーネントを共同で学習する手法を提案する。
提案するフレームワークは,ModelNet40データセットの最先端メソッドを著しく上回っている。
論文 参考訳(メタデータ) (2020-08-08T17:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。