論文の概要: Anisotropic Modality Align
- arxiv url: http://arxiv.org/abs/2605.07825v1
- Date: Fri, 08 May 2026 14:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.135696
- Title: Anisotropic Modality Align
- Title(参考訳): 異方性モダリティアライメント
- Authors: Xiaomin Yu, Yijiang Li, Yuhui Zhang, Hanzhen Zhao, Yue Yang, Hao Tang, Yue Song, Xiaobin Hu, Chengwei Qin, Shuicheng Yan, Hui Xiong,
- Abstract要約: マルチモーダルな大規模言語モデルの訓練は、高品質なペア型マルチモーダルデータの不足により、長い間制限されてきた。
近年の研究では、事前訓練されたマルチモーダルコントラストモデルの共有表現空間がブリッジとして機能し、非モーダルデータを用いたマルチモーダルトレーニングを可能にすることが示されている。
中心となる障害は、共有空間の永続的なモダリティギャップにある。
- 参考スコア(独自算出の注目度): 91.23979617826926
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Training multimodal large language models has long been limited by the scarcity of high-quality paired multimodal data. Recent studies show that the shared representation space of pretrained multimodal contrastive models can serve as a bridge, enabling models to perform multimodal training with unimodal data. However, the key premise of this paradigm remains insufficiently understood: can representations from different modalities be reliably interchanged? The core obstacle lies in the persistent Modality Gap in the shared space. In this work, we revisit the geometric nature of the modality gap. We find that modality representations already share compatible dominant semantic geometry. What truly hinders modality interchangeability is not a simple global shift, but an anisotropic residual structure concentrated along a small number of dominant directions. Based on this finding, we further propose the principle of anisotropic modality gap alignment: effective modality alignment should align with the target-modality distribution while preserving the semantic structure of the source modality. Guided by this principle, we propose an anisotropic geometric correction framework, AnisoAlign, for unpaired modality alignment. This framework leverages the internal geometric prior of the target modality and performs bounded correction on source-modality representations, thereby constructing substitute representations in the target modality. Experiments confirm its benefits in both geometric diagnostics and text-only MLLM training. Overall, this work recasts the modality gap from an empirical observation into a correctable, structured geometric phenomenon and provides a new representation alignment perspective for training multimodal models with unimodal data.
- Abstract(参考訳): マルチモーダルな大規模言語モデルの訓練は、高品質なペア型マルチモーダルデータの不足により、長い間制限されてきた。
近年の研究では、事前訓練されたマルチモーダルコントラストモデルの共有表現空間がブリッジとして機能し、非モーダルデータを用いたマルチモーダルトレーニングを可能にすることが示されている。
しかし、このパラダイムの重要な前提は、まだ十分に理解されていない:異なるモダリティの表現は確実に交換できるのか?
中心となる障害は、共有空間の永続的なモダリティギャップにある。
本研究では,モダリティギャップの幾何学的性質を再考する。
モダリティ表現は、すでに互換性のある支配的な意味幾何学を共有している。
モダリティの交換性を本当に妨げているのは、単純なグローバルシフトではなく、少数の支配的な方向に沿って非等方的残留構造が集中していることである。
そこで本研究では,異方性モダリティギャップアライメントの原理として,ソースモダリティのセマンティック構造を保ちつつ,対象モダリティ分布と効果的モダリティアライメントを一致させる方法を提案する。
この原理により、不等方的幾何補正フレームワークAnisoAlignを提案する。
このフレームワークは、対象モダリティの内部幾何学的先行を利用して、ソース・モダリティ表現の有界補正を行い、対象モダリティにおける代替表現を構築する。
実験は、幾何学的診断とテキストのみのMLLMトレーニングの両方において、その利点を確認している。
全体として、この研究は経験的観測から修正可能で構造化された幾何学的現象へのモダリティギャップをリキャストし、非モーダルデータを用いたマルチモーダルモデルのトレーニングのための新しい表現アライメント視点を提供する。
関連論文リスト
- Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - When Gradient Optimization Is Not Enough: $\dagger$ Dispersive and Anchoring Geometric Regularizer for Multimodal Learning [7.598111859541752]
我々は,表現幾何学をマルチモーダル学習において欠落する制御軸として認識し,軽量な幾何認識正規化フレームワークであるregNameを提案する。
regNameは、表現の多様性を促進するモード内分散正規化と、厳密なアライメントなしでサンプルレベルのクロスモーダルドリフトを束縛するモード間アンカー正規化の2つの補完的制約を施行する。
複数のマルチモーダルベンチマークによる実験では、マルチモーダルとユニモーダルの両方のパフォーマンスが一貫した改善を示し、表現幾何学の明示的な制御がモダリティトレードオフを効果的に緩和することを示した。
論文 参考訳(メタデータ) (2026-01-29T13:03:50Z) - Calibrated Multimodal Representation Learning with Missing Modalities [100.55774771852468]
マルチモーダル表現学習は、それらを統一潜在空間に整列させることにより、異なるモダリティを調和させる。
最近の研究は、従来のクロスモーダルアライメントを一般化して、強化されたマルチモーダル・シナジーを生成するが、すべてのモダリティを共通の例に含める必要がある。
我々は、アンカーシフトの観点から、この問題に関する理論的洞察を提供する。
モーダルの欠如に起因する不完全なアライメントを校正するために,マルチモーダル表現学習のためのCalMRLを提案する。
論文 参考訳(メタデータ) (2025-11-15T05:01:43Z) - Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - Escaping Plato's Cave: JAM for Aligning Independently Trained Vision and Language Models [30.07172193932125]
本稿では,JAM(Joint Autoencoder Modulator)が独立に訓練された表現のアライメントを誘導することを示す。
本研究は, 共通意味論の構造に関する理論的知見と, 一般論的な一助的基礎を専門的マルチモーダルモデルに変換するための実践的ガイダンスを提供する。
論文 参考訳(メタデータ) (2025-07-01T21:43:50Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。