論文の概要: Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2602.07026v1
- Date: Mon, 02 Feb 2026 13:59:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.372993
- Title: Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのためのモダリティギャップ駆動サブスペースアライメントトレーニングパラダイム
- Authors: Xiaomin Yu, Yi Xin, Wenjie Zhang, Chonghan Liu, Hanzhen Zhao, Xiaoxing Hu, Xinlei Yu, Ziyue Qiao, Hao Tang, Xue Yang, Xiaobin Hu, Chengwei Qin, Hui Xiong, Yu Qiao, Shuicheng Yan,
- Abstract要約: 永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
- 参考スコア(独自算出の注目度): 84.78794648147608
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the success of multimodal contrastive learning in aligning visual and linguistic representations, a persistent geometric anomaly, the Modality Gap, remains: embeddings of distinct modalities expressing identical semantics occupy systematically offset regions. Prior approaches to bridge this gap are largely limited by oversimplified isotropic assumptions, hindering their application in large-scale scenarios. In this paper, we address these limitations by precisely characterizing the geometric shape of the modality gap and leveraging it for efficient model scaling. First, we propose the Fixed-frame Modality Gap Theory, which decomposes the modality gap within a frozen reference frame into stable biases and anisotropic residuals. Guided by this precise modeling, we introduce ReAlign, a training-free modality alignment strategy. Utilizing statistics from massive unpaired data, ReAlign aligns text representation into the image representation distribution via a three-step process comprising Anchor, Trace, and Centroid Alignment, thereby explicitly rectifying geometric misalignment. Building on ReAlign, we propose ReVision, a scalable training paradigm for Multimodal Large Language Models (MLLMs). ReVision integrates ReAlign into the pretraining stage, enabling the model to learn the distribution of visual representations from unpaired text before visual instruction tuning, without the need for large-scale, high-quality image-text pairs. Our framework demonstrates that statistically aligned unpaired data can effectively substitute for expensive image-text pairs, offering a robust path for the efficient scaling of MLLMs.
- Abstract(参考訳): 視覚的および言語的表現の整合化におけるマルチモーダル・コントラスト学習の成功にもかかわらず、永続的な幾何学的異常であるモダリティギャップ(Modality Gap)が残る: 同一の意味を表現した異なるモダリティの埋め込みは、体系的にオフセット領域を占有する。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されており、大規模なシナリオでの応用を妨げる。
本稿では,モダリティギャップの幾何学的形状を正確に把握し,効率的なモデルスケーリングに利用することにより,これらの制約に対処する。
まず,凍結参照フレーム内のモダリティギャップを安定なバイアスと異方性残差に分解する固定フレームモダリティギャップ理論を提案する。
この厳密なモデリングによって導かれたReAlignは、トレーニング不要なモダリティアライメント戦略である。
膨大な未ペアデータからの統計を利用して、ReAlignは、Anchor、Trace、Centroid Alignmentからなる3段階のプロセスを通じて、テキスト表現を画像表現分布に整列し、幾何学的不整合を明示的に修正する。
ReAlign上に構築されたReVisionは,マルチモーダル大規模言語モデル(MLLM)のためのスケーラブルなトレーニングパラダイムである。
ReVisionはReAlignを事前訓練段階に統合し、大規模で高品質な画像テキストペアを必要とせず、視覚的な命令チューニングの前に、未学習のテキストから視覚表現の分布を学習できるようにする。
我々のフレームワークは、統計的に整合した不整合データによって、高価な画像テキストペアを効果的に置き換えることを示し、MLLMの効率的なスケーリングのための堅牢なパスを提供する。
関連論文リスト
- HyperET: Efficient Training in Hyperbolic Space for Multi-modal Large Language Models [50.31704374968706]
マルチモーダルな大言語モデル(MLLM)は、視覚的およびテキスト的理解を整合させるための変換的アプローチとして登場した。
それらは通常、多粒度レベルでのクロスモーダルアライメントを達成するために、訓練のために非常に高い計算資源を必要とする。
この非効率性の重要な源は、CLIPやSAMなど、広く採用されている視覚エンコーダであり、多粒度レベルでの言語との整合性が欠如している。
論文 参考訳(メタデータ) (2025-10-23T08:16:44Z) - MAGE: Multimodal Alignment and Generation Enhancement via Bridging Visual and Semantic Spaces [23.447713697204225]
MAGEは、革新的なアライメント機構を通じて視覚とテキストの意味空間をブリッジする新しいフレームワークである。
我々は、クロスエントロピーと平均二乗誤差を組み合わせたトレーニング戦略を採用し、アライメント効果を著しく向上させる。
提案するマルチモーダル大規模モデルアーキテクチャであるMAGEは,様々な評価ベンチマークにおける類似の手法と比較して,性能が大幅に向上した。
論文 参考訳(メタデータ) (2025-07-29T12:17:46Z) - Gramian Multimodal Representation Learning and Alignment [5.793118803623239]
グラミアン表現アライメント尺度(GRAM)について紹介する。
GRAMは、モダリティ埋め込みが横たわる高次元空間において、$n$モダリティを学習し、アライメントする。
GRAMに基づく新しいコントラスト損失関数は、高次元埋め込み空間におけるマルチモーダルモデルのアライメントを高める。
論文 参考訳(メタデータ) (2024-12-16T16:41:51Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - ARNet: Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。