論文の概要: Rethinking Visual Information Processing in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2511.10301v1
- Date: Fri, 14 Nov 2025 01:44:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.805269
- Title: Rethinking Visual Information Processing in Multimodal LLMs
- Title(参考訳): マルチモーダルLCMにおける視覚情報処理の再考
- Authors: Dongwan Kim, Viresh Ranjan, Takashi Nagata, Arnab Dhua, Amit Kumar K C,
- Abstract要約: 拡張ビジョン変換器としてLLaViT-Large Language Modelを提案する。
LLaViTは,多数のベンチマークにおいて,ベースラインのLLaVA法よりも大幅に優れていることを示す。
- 参考スコア(独自算出の注目度): 9.660144531857933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the remarkable success of the LLaVA architecture for vision-language tasks, its design inherently struggles to effectively integrate visual features due to the inherent mismatch between text and vision modalities. We tackle this issue from a novel perspective in which the LLM not only serves as a language model but also a powerful vision encoder. To this end, we present LLaViT - Large Language Models as extended Vision Transformers - which enables the LLM to simultaneously function as a vision encoder through three key modifications: (1) learning separate QKV projections for vision modality, (2) enabling bidirectional attention on visual tokens, and (3) incorporating both global and local visual representations. Through extensive controlled experiments on a wide range of LLMs, we demonstrate that LLaViT significantly outperforms the baseline LLaVA method on a multitude of benchmarks, even surpassing models with double its parameter count, establishing a more effective approach to vision-language modeling.
- Abstract(参考訳): 視覚言語タスクにおけるLLaVAアーキテクチャの顕著な成功にもかかわらず、その設計は本質的に、テキストと視覚のモダリティの固有のミスマッチのため、視覚的特徴を効果的に統合するのに苦労している。
我々は、LLMが言語モデルだけでなく、強力な視覚エンコーダとしても機能する、新しい視点からこの問題に取り組む。
この目的のために、LLaViT - Large Language Models as extended Vision Transformers - は、LLMがビジョンエンコーダとして同時に機能することを可能にし、(1)視覚のモダリティのための別個のQKVプロジェクションを学習すること、(2)視覚トークンへの双方向の注意を可能にすること、(3)グローバルとローカルの両方の視覚表現を取り入れることである。
LLaViT は広い範囲の LLM に関する広範囲な制御実験を通じて,多数のベンチマークにおいてベースライン LLaVA 法を著しく上回り,パラメータ数2倍のモデルにも勝り,視覚言語モデリングにおけるより効果的なアプローチを確立した。
関連論文リスト
- Visual Representation Alignment for Multimodal Large Language Models [38.319869213758686]
マルチモーダルな大規模言語モデル (MLLM) は、視覚的指導のチューニングで訓練され、様々なタスクにまたがって高い性能を達成している。
しかし、それらはオブジェクトのカウントや空間的推論のような視覚中心のタスクに限られている。
本稿では、MLLMの内部視覚表現と事前学習された視覚基盤モデルとを整合させる、シンプルで効果的な正規化戦略である視覚表現アライメント(VIRAL)を提案する。
論文 参考訳(メタデータ) (2025-09-09T17:59:14Z) - MASSV: Multimodal Adaptation and Self-Data Distillation for Speculative Decoding of Vision-Language Models [0.09895793818721334]
視覚言語モデル(MASSV)の投機的復号化のためのマルチモーダル適応と自己データ蒸留を導入する。
MASSVは、既存の小さな言語モデルを2段階のアプローチで効果的なマルチモーダルドラフトに変換する。
Qwen2.5-VL と Gemma3 モデルファミリでの実験では、MASSV が許容される長さを最大30%増加し、視覚的に接地されたタスクで最大 1.46 倍のエンドツーエンドの推論速度を提供することを示した。
論文 参考訳(メタデータ) (2025-05-15T17:37:00Z) - Enhancing Perception Capabilities of Multimodal LLMs with Training-Free Fusion [40.56646959926701]
マルチモーダルLLM (Multimodal LLMs) は、視覚エンコーダと言語モデルとの整合による視覚能力を備えた言語モデルである。
MLLMの視覚知覚を高める既存の方法は、しばしばより強力な視覚エンコーダを設計する。
市販のMLLMから複数の視覚エンコーダを効率的に活用する新しい統合フレームワークであるVisionFuseを紹介する。
論文 参考訳(メタデータ) (2024-12-02T09:02:28Z) - LLaVA-OneVision: Easy Visual Task Transfer [79.36225099277112]
LLaVA-OneVisionは、オープンな大規模マルチモーダルモデル(LMM)のファミリーであり、データ、モデル、視覚表現に関する洞察を統合することで開発されている。
実験の結果,LLaVA-OneVisionはオープンLMMの性能境界を同時に押し上げることのできる最初の単一モデルであることがわかった。
論文 参考訳(メタデータ) (2024-08-06T17:59:44Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - LION : Empowering Multimodal Large Language Model with Dual-Level Visual
Knowledge [58.82222646803248]
MLLM(Multimodal Large Language Models)は、マルチモーダル信号の知覚と理解が可能なLLMを提供する。
既存のMLLMの多くは、大まかに整列された画像テキストペアで事前訓練された視覚エンコーダを採用しており、視覚知識の抽出と推論が不十分である。
本稿では,2段階の視覚的知識を注入することによってMLLMを増強する,デュアルレベルvIsual knedgeOwl eNhanced Multimodal Large Language Model (LION)を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。