論文の概要: From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion
- arxiv url: http://arxiv.org/abs/2601.10710v1
- Date: Thu, 15 Jan 2026 18:59:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.289984
- Title: From One-to-One to Many-to-Many: Dynamic Cross-Layer Injection for Deep Vision-Language Fusion
- Title(参考訳): 一対一から多対多へ:深部視覚・言語融合のための動的クロス層注入
- Authors: Cheng Chen, Yuyu Guo, Pengpeng Zeng, Jingkuan Song, Peng Di, Hang Yu, Lianli Gao,
- Abstract要約: VLM(Vision-Language Models)は、粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
CLI(Cross-Layer Injection)は,2つのモダリティの間に動的に多対多の橋を架ける,斬新で軽量なフレームワークである。
- 参考スコア(独自算出の注目度): 91.35078719566472
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) create a severe visual feature bottleneck by using a crude, asymmetric connection that links only the output of the vision encoder to the input of the large language model (LLM). This static architecture fundamentally limits the ability of LLMs to achieve comprehensive alignment with hierarchical visual knowledge, compromising their capacity to accurately integrate local details with global semantics into coherent reasoning. To resolve this, we introduce Cross-Layer Injection (CLI), a novel and lightweight framework that forges a dynamic many-to-many bridge between the two modalities. CLI consists of two synergistic, parameter-efficient components: an Adaptive Multi-Projection (AMP) module that harmonizes features from diverse vision layers, and an Adaptive Gating Fusion (AGF) mechanism that empowers the LLM to selectively inject the most relevant visual information based on its real-time decoding context. We validate the effectiveness and versatility of CLI by integrating it into LLaVA-OneVision and LLaVA-1.5. Extensive experiments on 18 diverse benchmarks demonstrate significant performance improvements, establishing CLI as a scalable paradigm that unlocks deeper multimodal understanding by granting LLMs on-demand access to the full visual hierarchy.
- Abstract(参考訳): Vision-Language Models (VLM) は、ビジョンエンコーダの出力のみを大きな言語モデル(LLM)の入力にリンクする粗い非対称接続を使用することで、深刻な視覚的特徴のボトルネックを生み出す。
この静的アーキテクチャは、LLMが階層的な視覚的知識との包括的整合性を達成する能力を根本的に制限し、局所的な詳細をグローバルな意味論と正確に統合する能力と一貫性のある推論を両立させた。
そこで我々はCLI(Cross-Layer Injection)という,2つのモダリティの間に動的に多対多の橋渡しを行う新しい軽量フレームワークを紹介した。
CLIは2つの相乗的かつパラメータ効率の高いコンポーネントで構成されている: 多様な視覚層から特徴を調和させるAdaptive Multi-Projection (AMP) モジュールと、LLMがリアルタイムデコードコンテキストに基づいて最も関連性の高い視覚情報を選択的に注入するAdaptive Gating Fusion (AGF) メカニズムである。
LLaVA-OneVisionとLLaVA-1.5に組み込むことでCLIの有効性と汎用性を検証した。
18の多様なベンチマークに関する大規模な実験は、大幅なパフォーマンス向上を示し、完全なビジュアル階層へのオンデマンドアクセスを提供することで、より深いマルチモーダル理解を解放するスケーラブルなパラダイムとしてCLIを確立する。
関連論文リスト
- BcQLM: Efficient Vision-Language Understanding with Distilled Q-Gated Cross-Modal Fusion [6.8723394189831035]
大規模言語モデルは、リソース制約のある環境でのデプロイメントに挑戦する。
本稿では,エンドツーエンドの視覚的質問応答のための軽量MLLMフレームワークを提案する。
提案手法は,効率的なマルチモーダル理解のために最適化されたコンパクトだが強力な視覚言語である BreezeCLIP を中心にしている。
論文 参考訳(メタデータ) (2025-09-10T16:09:49Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs [31.88022265176855]
Supervised Embedding Alignment (SEA) は、事前トレーニング中により正確な視覚的テキストアライメントを可能にするトークンレベルのアライメント手法である。
包括的分析により,マルチモーダル統合におけるアダプタの役割について重要な知見が得られた。
論文 参考訳(メタデータ) (2024-08-21T17:58:02Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal Alignment [39.54689489555342]
現在の視覚注入(VL)トラッキングフレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成される。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。