論文の概要: Multimodal LLMs under Pairwise Modalities
- arxiv url: http://arxiv.org/abs/2605.21059v1
- Date: Wed, 20 May 2026 11:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.648978
- Title: Multimodal LLMs under Pairwise Modalities
- Title(参考訳): ペアワイズモード下におけるマルチモーダルLCM
- Authors: Yan Li, Yunlong Deng, Yuewen Sun, Gongxu Luo, Kun Zhang, Guangyi Chen,
- Abstract要約: ペアワイズデータのみを用いて、モダリティ間で潜在表現を整列する表現学習フレームワークを提案する。
特に第1段階では、自己モダル再構成とペアワイドコントラスト学習の両方により、モダリティ間の共有潜在空間を学習する。
ステージ2では、新たに導入されたモダリティのエンコーダと事前訓練されたモダリティのデコーダを統合し、クロスモーダル転送と生成を容易にする。
- 参考スコア(独自算出の注目度): 16.75545711899814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the impressive results achieved by multimodal large language models (MLLMs), their training typically relies on jointly curated multimodal data, requiring substantial human effort to construct multi-way aligned datasets and thereby limiting scalability across domains. In this work, we explore training MLLMs by only leveraging multiple paired modalities as a surrogate for the full joint multimodal distribution. Specifically, we first provide a theoretical analysis of the conditions under which the representations are identifiable with only observing pairwise modalities. Building on this analysis, we propose a representation learning framework for aligning latent representations across modalities using only pairwise data. The framework consists of two stages: latent representation alignment and cross-modal recomposition. Specifically, in the first stage, we learn the shared latent space across modalities by both self-modal reconstruction and pair-wise contrastive learning. We also incorporate an inductive bias in the contrastive learning process by partially aligning and minimal latent specification. In stage two, we integrate the encoder of newly introduced modalities with the decoders of the pre-trained modalities to facilitate cross-modal transfer and generation. We evaluate our method by newly adding 3D point clouds and tactile modalities into pre-trained MLLMs with three modality pairs and show that, by learning an aligned latent representation space, our model achieves strong cross-modal performance.
- Abstract(参考訳): MLLM(Multimodal large language model)によって達成された印象的な結果にもかかわらず、そのトレーニングは通常、共同でキュレートされたマルチモーダルデータに依存しており、マルチウェイ・アライメント・データセットの構築とドメイン間のスケーラビリティの制限に相当な人的努力を必要としている。
本研究では,複数対のモーダルを全関節マルチモーダル分布のサロゲートとしてのみ活用し,MLLMのトレーニングについて検討する。
具体的には、まず、表現が対のモジュラリティのみを観察することで識別できる条件に関する理論的解析を行う。
この分析に基づいて、ペアデータのみを用いて、モダリティにまたがる潜在表現を整列する表現学習フレームワークを提案する。
フレームワークは、遅延表現アライメントとクロスモーダル再構成の2つのステージで構成されている。
特に第1段階では、自己モダル再構成とペアワイドコントラスト学習の両方により、モダリティ間の共有潜在空間を学習する。
また、部分的に整合し、最小限の潜在仕様を定め、対照的な学習プロセスに帰納バイアスを組み込む。
ステージ2では、新たに導入されたモダリティのエンコーダと事前訓練されたモダリティのデコーダを統合し、クロスモーダル転送と生成を容易にする。
3つのモード対を持つ事前学習MLLMに3次元点雲と触覚モーダルティを新たに付加することにより,本手法の評価を行った。
関連論文リスト
- PivotMerge: Bridging Heterogeneous Multimodal Pre-training via Post-Alignment Model Merging [80.17966517536102]
マルチモーダル大規模言語モデルの事前学習の核心は、効果的なクロスモーダルアライメントの確立にあると論じる。
この知見に触発されて,マルチモーダル事前学習から学んだクロスモーダルアライメント機能を統合することを目的とした,アライメント後のマージタスクを導入する。
クロスモーダルプロジェクタのためのアライメント後マージフレームワークであるPivotMergeを提案する。
論文 参考訳(メタデータ) (2026-04-18T09:38:03Z) - MuCo: Multi-turn Contrastive Learning for Multimodal Embedding Model [57.89395815934156]
Multi-Turn Contrastive Learning (MuCo)は、このプロセスを再考する対話にインスパイアされたフレームワークである。
新たな5Mマルチモーダルマルチターンデータセット(M3T)による MuCo の表示実験
論文 参考訳(メタデータ) (2026-02-06T05:18:33Z) - Multimodal Representation Learning Conditioned on Semantic Relations [10.999120598129126]
マルチモーダル表現学習はCLIPのような対照的なモデルで急速に進歩している。
本稿では,自然言語関係記述に基づくマルチモーダル表現学習フレームワークであるRelation-Conditioned Multimodal Learning RCMLを提案する。
提案手法では,意味的関係に関連付けられた多対多の学習ペアを構築し,関係誘導型クロスアテンション機構を導入する。
論文 参考訳(メタデータ) (2025-08-24T19:36:18Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Continual Multimodal Contrastive Learning [99.53621521696051]
MCL(Multimodal Contrastive Learning)は、異なるモダリティを整列し、関節空間におけるマルチモーダル表現を生成する。
マルチモーダルデータは単一のプロセスで収集されることはめったになく、スクラッチからのトレーニングは計算コストがかかる。
本稿では, 安定性と塑性の2つの原理によりCMCLを定式化する。
理論的には、二辺から部分空間への勾配の更新を計画する、新しい最適化に基づく手法を導出する。
論文 参考訳(メタデータ) (2025-03-19T07:57:08Z) - Cross-Modal Few-Shot Learning: a Generative Transfer Learning Framework [58.362064122489166]
本稿では,ラベル付きデータに頼らず,複数のモードにまたがるインスタンスの認識を目的としたクロスモーダルなFew-Shot Learningタスクを提案する。
本研究では,人間が概念を抽象化し,一般化する方法をシミュレートし,ジェネレーティブトランスファー学習フレームワークを提案する。
GTLは、RGB-Sketch、RGB-赤外線、RGB-Depthの7つのマルチモーダルデータセットにまたがる最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-14T16:09:38Z) - Toward Robust Multimodal Learning using Multimodal Foundational Models [30.755818450393637]
マルチモーダル基礎モデルを用いたロバストなマルチモーダル学習に向けたTRMLを提案する。
TRMLは、欠落したモダリティを置き換えるために生成された仮想モダリティを使用する。
またセマンティックマッチング学習モジュールを設計し、セマンティック空間の生成とモダリティの欠如を協調する。
論文 参考訳(メタデータ) (2024-01-20T04:46:43Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。