論文の概要: Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping
- arxiv url: http://arxiv.org/abs/2508.12466v1
- Date: Sun, 17 Aug 2025 18:36:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.783537
- Title: Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping
- Title(参考訳): Inverse-LLaVA:テキスト・ツー・ビジョンマッピングによるアライメント事前学習の除去
- Authors: Xuhui Zhan, Tyler Derr,
- Abstract要約: Inverse-LLaVAは、ブリッジビジョンと言語モダリティに対する新しいアプローチである。
テキスト空間に視覚的特徴を投影するのではなく,テキスト埋め込みを連続的な視覚的表現空間にマッピングする。
我々の研究は、計算要求を45%削減する新しいパラダイムの実現性を確立する。
- 参考スコア(独自算出の注目度): 10.994141504313689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
- Abstract(参考訳): 従来のマルチモーダル学習アプローチでは、視覚と言語のモダリティを橋渡しするために、高価なアライメント事前訓練が必要であり、通常は視覚的特徴を個別のテキストトークン空間に投影する。
Inverse-LLaVAは、従来の写像方向を反転しながらアライメント事前学習を完全に排除する新しいアプローチである。
テキスト空間に視覚的特徴を投影するのではなく、連続的な視覚表現空間にテキスト埋め込みをマッピングし、トランスフォーマー中間層内で融合を行う。
注意機構の選択的付加成分により、大量の画像テキストアライメントデータセットを必要とせず、視覚的およびテキスト的表現の動的統合を可能にする。
Inverse-LLaVAは推論集約および認知タスク(MM-VET: +0.2%、VizWiz: +1.8%、ScienceQA: +0.2%、認知推論: +27.2%)において顕著な改善を達成しつつ、記憶された視覚テキストアソシエーションを必要とする知覚タスクの減少(セレブ認識:-49.5%、OCR:-21.3%)を示した。
これらの結果は、特に複雑な推論タスクにおいて、効果的なマルチモーダル学習にはアライメント事前学習は必要ないという最初の実証的証拠を提供する。
我々の研究は、計算要求を45%削減する新しいパラダイムの実現性を確立し、従来のモダリティ融合に関する知恵に挑戦し、モダリティ固有の特性を保った効率的なマルチモーダルアーキテクチャのための新しい研究方向を開く。
コードと追加リソースを備えたプロジェクトのWebサイトはhttps://inverse-llava.github.io.comで公開されている。
関連論文リスト
- See, Think, Act: Online Shopper Behavior Simulation with VLM Agents [58.92444959954643]
本稿では,視覚情報,特にWebページスクリーンショットのVLMによる動作シミュレーションへの統合について検討する。
我々は,協調行動予測と合理化生成にSFTを用いて,相互作用の完全な文脈を条件づける。
推論能力をさらに強化するため,RLを階層的な報酬構造と統合し,難易度因子によって拡張する。
論文 参考訳(メタデータ) (2025-10-22T05:07:14Z) - Infusing fine-grained visual knowledge to Vision-Language Models [5.487134463783365]
大規模コントラスト学習による視覚・言語モデル(VLM)の作成
本稿では,VLMの広義マルチモーダル知識の細粒度ドメイン適応と保持の最適バランスを実現するための微調整手法を提案する。
特に微調整時にテキストデータや元のテキストエンコーダを使わずに、視覚的テキストアライメントを維持する。
論文 参考訳(メタデータ) (2025-08-16T19:12:09Z) - Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。
これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。
トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文 参考訳(メタデータ) (2025-06-27T14:55:40Z) - Visual Structures Helps Visual Reasoning: Addressing the Binding Problem in VLMs [3.090279286701713]
本稿では,低レベル空間構造による視覚入力の増大という,シンプルながら効果的な介入を提案する。
私たちは、コアの視覚的推論タスクに対して、実質的なパフォーマンス改善を実証的に示します。
論文 参考訳(メタデータ) (2025-06-27T11:44:40Z) - Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。
既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。
LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文 参考訳(メタデータ) (2025-05-17T10:22:29Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - D-Attn: Decomposed Attention for Large Vision-and-Language Models [29.611769371733672]
大規模視覚・言語モデル(LVLM)のためのより柔軟な注意アーキテクチャである分解注意アーキテクチャ(D-Attn)を提案する。
D-AttnはLVLMの1次元因果自認を視覚的・視覚的・視覚的・テキスト的・テキスト的に分解する。
実験と解析によりD-Attnの有効性が検証され、複数の画像ベンチマークで大幅な改善が示された。
論文 参考訳(メタデータ) (2025-02-04T00:46:11Z) - Advancing Prompt Learning through an External Layer [24.77977865016954]
本稿では,新しい外部層(EnLa)を備えたEnPromptというパラダイムを提案する。
学習可能な外部レイヤは、トレーニング済みのCLIPの有効な埋め込みに基づいて構築される。
4つの実験により,本手法が既存の即時学習法より優れていることが示された。
論文 参考訳(メタデータ) (2024-07-29T03:30:09Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。