論文の概要: Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping
- arxiv url: http://arxiv.org/abs/2508.12466v1
- Date: Sun, 17 Aug 2025 18:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.783537
- Title: Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping
- Title(参考訳): Inverse-LLaVA:テキスト・ツー・ビジョンマッピングによるアライメント事前学習の除去
- Authors: Xuhui Zhan, Tyler Derr,
- Abstract要約: Inverse-LLaVAは、ブリッジビジョンと言語モダリティに対する新しいアプローチである。
テキスト空間に視覚的特徴を投影するのではなく,テキスト埋め込みを連続的な視覚的表現空間にマッピングする。
我々の研究は、計算要求を45%削減する新しいパラダイムの実現性を確立する。
- 参考スコア(独自算出の注目度): 10.994141504313689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
- Abstract(参考訳): 従来のマルチモーダル学習アプローチでは、視覚と言語のモダリティを橋渡しするために、高価なアライメント事前訓練が必要であり、通常は視覚的特徴を個別のテキストトークン空間に投影する。
Inverse-LLaVAは、従来の写像方向を反転しながらアライメント事前学習を完全に排除する新しいアプローチである。
テキスト空間に視覚的特徴を投影するのではなく、連続的な視覚表現空間にテキスト埋め込みをマッピングし、トランスフォーマー中間層内で融合を行う。
注意機構の選択的付加成分により、大量の画像テキストアライメントデータセットを必要とせず、視覚的およびテキスト的表現の動的統合を可能にする。
Inverse-LLaVAは推論集約および認知タスク(MM-VET: +0.2%、VizWiz: +1.8%、ScienceQA: +0.2%、認知推論: +27.2%)において顕著な改善を達成しつつ、記憶された視覚テキストアソシエーションを必要とする知覚タスクの減少(セレブ認識:-49.5%、OCR:-21.3%)を示した。
これらの結果は、特に複雑な推論タスクにおいて、効果的なマルチモーダル学習にはアライメント事前学習は必要ないという最初の実証的証拠を提供する。
我々の研究は、計算要求を45%削減する新しいパラダイムの実現性を確立し、従来のモダリティ融合に関する知恵に挑戦し、モダリティ固有の特性を保った効率的なマルチモーダルアーキテクチャのための新しい研究方向を開く。
コードと追加リソースを備えたプロジェクトのWebサイトはhttps://inverse-llava.github.io.comで公開されている。
関連論文リスト
- Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [3.090279286701713]
本稿では,低レベル空間構造による視覚入力の増大という,シンプルながら効果的な介入を提案する。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。