論文の概要: Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
- arxiv url: http://arxiv.org/abs/2510.08492v1
- Date: Thu, 09 Oct 2025 17:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.248569
- Title: Better Together: Leveraging Unpaired Multimodal Data for Stronger Unimodal Models
- Title(参考訳): より優れた組み合わせ:より強力なユニモーダルモデルのための未ペアマルチモーダルデータの活用
- Authors: Sharut Gupta, Shobhita Sundaram, Chenyu Wang, Stefanie Jegelka, Phillip Isola,
- Abstract要約: In this present: Unpaired Multimodal, a modality-agnostic training paradigm, a single model then alternately processs from different modalities while sharing parameters across。
補助モダリティからの未ペアリングデータを使用することで、画像や音声などの様々な単一目標に対して、ダウンストリーム性能が一貫して向上することを示す。
- 参考スコア(独自算出の注目度): 63.032359320629105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional multimodal learners find unified representations for tasks like visual question answering, but rely heavily on paired datasets. However, an overlooked yet potentially powerful question is: can one leverage auxiliary unpaired multimodal data to directly enhance representation learning in a target modality? We introduce UML: Unpaired Multimodal Learner, a modality-agnostic training paradigm in which a single model alternately processes inputs from different modalities while sharing parameters across them. This design exploits the assumption that different modalities are projections of a shared underlying reality, allowing the model to benefit from cross-modal structure without requiring explicit pairs. Theoretically, under linear data-generating assumptions, we show that unpaired auxiliary data can yield representations strictly more informative about the data-generating process than unimodal training. Empirically, we show that using unpaired data from auxiliary modalities -- such as text, audio, or images -- consistently improves downstream performance across diverse unimodal targets such as image and audio. Our project page: https://unpaired-multimodal.github.io/
- Abstract(参考訳): 従来のマルチモーダル学習者は、視覚的な質問応答のようなタスクの統一表現を見つけるが、ペア化されたデータセットに強く依存する。
しかし、見落とされながら潜在的に強力な疑問は: 目的とするモダリティにおける表現学習を直接強化するために補助的無ペアマルチモーダルデータを利用することができるか?
UML(Unpaired Multimodal Learner)とは、1つのモデルが異なるモーダルから入力を交互に処理し、パラメータを共有しながら、異なるモーダルから入力を処理する、モダリティに依存しないトレーニングパラダイムである。
この設計は、異なるモジュラリティが共有された現実の射影であるという仮定を利用しており、明示的なペアを必要とせず、モデルがクロスモーダル構造から恩恵を受けることができる。
理論的には, 線形データ生成仮定の下では, 非ペア補助データにより, 非モダルトレーニングよりもデータ生成過程について, 厳密に表現できることを示す。
経験的に、テキスト、オーディオ、画像などの補助的なモダリティからの未ペアリングデータを使用することで、画像やオーディオのような多様な単調なターゲットをまたいだダウンストリームのパフォーマンスが一貫して向上することを示す。
プロジェクトページ:https://unpaired-multimodal.github.io/
関連論文リスト
- Learning Shared Representations from Unpaired Data [8.370305493567542]
共有表現は、ほとんどペアリングされていないデータから学習可能であることを示す。
コンピュータビジョンと自然言語処理領域の実証的な結果は、その可能性を支持する。
論文 参考訳(メタデータ) (2025-05-23T11:13:04Z) - MINIMA: Modality Invariant Image Matching [52.505282811925454]
複数のクロスモーダルケースを対象とした統合画像マッチングフレームワークであるMINIMAを提案する。
生成モデルを用いて、安価だがリッチなRGBのみのマッチングデータからモダリティをスケールアップする。
MD-synでは、任意の高度なマッチングパイプラインをランダムに選択したモダリティペアで直接訓練して、クロスモーダル能力を得ることができる。
論文 参考訳(メタデータ) (2024-12-27T02:39:50Z) - MultiDelete for Multimodal Machine Unlearning [14.755831733659699]
MultiDeleteは、アンラーニング中の非モーダルデータポイント間の関連を分離するように設計されている。
アンラーニング後のオリジナルのモデルのマルチモーダルとユニモーダルの知識を維持できる。
敵の攻撃に対して、未学習のデータに対するより優れた保護を提供することができる。
論文 参考訳(メタデータ) (2023-11-18T08:30:38Z) - SUMMIT: Source-Free Adaptation of Uni-Modal Models to Multi-Modal
Targets [30.262094419776208]
現在のアプローチでは、ソースデータが適応中に利用可能であり、ソースはペア化されたマルチモーダルデータで構成されていると仮定している。
本稿では,2つの相補的な擬似ラベル融合法を自動選択するスイッチングフレームワークを提案する。
提案手法は,mIoUが競合するベースラインよりも最大12%向上することを示す。
論文 参考訳(メタデータ) (2023-08-23T02:57:58Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - Does a Technique for Building Multimodal Representation Matter? --
Comparative Analysis [0.0]
マルチモーダル表現を構築するためのテクニックの選択は、可能な限り高いモデルの性能を得るために不可欠であることを示す。
Amazon Reviews、MovieLens25M、MovieLens1Mの3つのデータセットで実験が行われる。
論文 参考訳(メタデータ) (2022-06-09T21:30:10Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。