論文の概要: LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation
- arxiv url: http://arxiv.org/abs/2506.16691v1
- Date: Fri, 20 Jun 2025 02:25:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.309911
- Title: LaVi: Efficient Large Vision-Language Models via Internal Feature Modulation
- Title(参考訳): LaVi: 内部特徴変調による高能率視覚言語モデル
- Authors: Tongtian Yue, Longteng Guo, Yepeng Tang, Zijia Zhao, Xinxin Zhu, Hua Huang, Jing Liu,
- Abstract要約: 本稿では,シームレスかつ効率的な視覚言語融合を実現する新しいLVLMであるLaViを提案する。
視覚トークンの結合に依存する支配的なLVLMとは異なり、LaViは長いコンテキスト拡張をバイパスする。
LLaVA-OV-7Bと比較して、LaViはFLOPを94.0%削減し、推論速度を3.1倍改善し、メモリ使用量を半分に削減した。
- 参考スコア(独自算出の注目度): 17.318287255400175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive advancements of Large Vision-Language Models (LVLMs), existing approaches suffer from a fundamental bottleneck: inefficient visual-language integration. Current methods either disrupt the model's inherent structure or introduce severe long-context computational burden, severely limiting scalability and efficiency. In this paper, we rethink multimodal integration and present LaVi, a novel LVLM that enables seamless and efficient vision-language fusion through internal feature modulation within the Large Language Models (LLMs). Unlike dominant LVLMs that rely on visual token concatenation, LaVi bypasses long-context expansion by introducing a lightweight and adaptive transformation, which incorporates visual context by injecting token-wise vision-conditioned deltas into the affine parameters of layer normalization. This mechanism directly modulates linguistic hidden states based on visual input, ensuring precise vision-language alignment while preserving the LLM's linguistic priors and drastically reducing computational costs. Extensive evaluations across 15 image and video benchmarks demonstrate that LaVi not only achieves state-of-the-art multimodal performance but also dramatically enhances efficiency. Compared to LLaVA-OV-7B, LaVi reduces FLOPs by 94.0%, improves inference speed by 3.1 times, and cuts memory usage in half - establishing LaVi as a scalable and practical solution for real-time multimodal reasoning. The code and models will be released soon.
- Abstract(参考訳): LVLM(Large Vision-Language Models)の目覚ましい進歩にもかかわらず、既存のアプローチは基本的なボトルネック、すなわち非効率な視覚言語統合に悩まされている。
現在の手法は、モデル固有の構造を破壊したり、拡張性と効率を著しく制限する、非常に長いコンテキストの計算負荷をもたらす。
本稿では、マルチモーダル統合を再考し、LVLM(Large Language Models (LLMs))の内部特徴変調によるシームレスかつ効率的な視覚言語融合を可能にする新しいLVLMであるLaViについて述べる。
視覚的トークンの結合に依存する支配的なLVLMとは異なり、LaViはライトウェイトで適応的な変換を導入し、層正規化のアフィンパラメータにトークンワイドな視覚条件デルタを注入することで視覚的コンテキストを取り入れることで、長期的コンテキスト拡張をバイパスする。
このメカニズムは、視覚入力に基づいて言語隠れ状態を直接変調し、LLMの言語的前提を保ちながら正確な視覚言語アライメントを確保し、計算コストを大幅に削減する。
15の画像とビデオのベンチマークによる大規模な評価は、LaViが最先端のマルチモーダル性能を達成するだけでなく、効率を大幅に向上させることを示している。
LLaVA-OV-7Bと比較して、LaViはFLOPを94.0%削減し、推論速度を3.1倍改善し、メモリ使用量を半分に削減する。
コードとモデルも間もなくリリースされる予定だ。
関連論文リスト
- TinyAlign: Boosting Lightweight Vision-Language Models by Mitigating Modal Alignment Bottlenecks [15.308801774590597]
ビジョンと言語モデルを調整するための一般的なアプローチは、小さなコネクタモジュールをトレーニングしながら、ビジョンエンコーダと言語モデルの両方を凍結させることである。
本研究では,このアライメントのボトルネックを相互情報のレンズを通して検討する。
本稿では、メモリバンクから関連するコンテキストを戦略的に取得し、マルチモーダル入力を豊かにし、アライメントを向上する、Retrieval-Augmented Generationにインスパイアされた新しいフレームワークTinyAlignを提案する。
論文 参考訳(メタデータ) (2025-05-19T09:11:54Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - VLsI: Verbalized Layers-to-Interactions from Large to Small Vision Language Models [63.27511432647797]
VLsI: Verbalized Layers-to-Interactions, a new VLM family in 2B and 7B model size。
GPT-4Vよりも優れた性能向上(2Bは11.0%、7Bは17.4%)を達成した。
論文 参考訳(メタデータ) (2024-12-02T18:58:25Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。