論文の概要: AVAM: Universal Training-free Adaptive Visual Anchoring Embedded into Multimodal Large Language Model for Multi-image Question Answering
- arxiv url: http://arxiv.org/abs/2508.17860v1
- Date: Mon, 25 Aug 2025 10:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.723934
- Title: AVAM: Universal Training-free Adaptive Visual Anchoring Embedded into Multimodal Large Language Model for Multi-image Question Answering
- Title(参考訳): AVAM:マルチモーダル大言語モデルに組み込んだユニバーサルトレーニングフリー適応型ビジュアルアンカリング
- Authors: Kang Zeng, Guojin Zhong, Jintao Cheng, Jin Yuan, Zhiyong Li,
- Abstract要約: 本稿では,既存のMLLMにシームレスに統合可能な,単純かつ普遍的な適応型ビジュアルアンカリング戦略を提案する。
グローバルな視覚入力と圧縮された視覚入力の両方から得られる結果のバランスをとるために,新しい協調的復号機構を導入する。
- 参考スコア(独自算出の注目度): 10.967073982905752
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of Multimodal Large Language Models (MLLMs) has driven significant progress in Visual Question Answering (VQA), evolving from Single to Multi Image VQA (MVQA). However, the increased number of images in MVQA inevitably introduces substantial visual redundancy that is irrelevant to question answering, negatively impacting both accuracy and efficiency. To address this issue, existing methods lack flexibility in controlling the number of compressed visual tokens and tend to produce discrete visual fragments, which hinder MLLMs' ability to comprehend images holistically. In this paper, we propose a straightforward yet universal Adaptive Visual Anchoring strategy, which can be seamlessly integrated into existing MLLMs, offering significant accuracy improvements through adaptive compression. Meanwhile, to balance the results derived from both global and compressed visual input, we further introduce a novel collaborative decoding mechanism, enabling optimal performance. Extensive experiments validate the effectiveness of our method, demonstrating consistent performance improvements across various MLLMs. The code will be publicly available.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩は、単一のVQA(Single to Multi Image VQA)へと進化する視覚質問応答(VQA)において大きな進歩をもたらした。
しかし、MVQAにおける画像の増加は必然的に、答えに無関係な相当な視覚的冗長性をもたらし、精度と効率の両方に悪影響を及ぼす。
この問題に対処するため、既存の手法では圧縮された視覚トークンの数を制御する柔軟性が欠けており、離散的な視覚的断片を生成する傾向があるため、MLLMが画像の全体的理解を妨げている。
本稿では,既存のMLLMにシームレスに統合し,適応圧縮による大幅な精度向上を実現する,単純かつ普遍的な適応型ビジュアルアンカリング戦略を提案する。
一方,グローバルな視覚入力と圧縮された視覚入力の両方から得られる結果のバランスをとるために,新たな協調的復号化機構を導入し,最適な性能を実現する。
本手法の有効性を検証し,各種MLLMにおける一貫した性能向上を実証した。
コードは公開されます。
関連論文リスト
- Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - ADEM-VL: Adaptive and Embedded Fusion for Efficient Vision-Language Tuning [38.26304604660713]
ADEM-VLは、事前訓練された大規模言語モデルに基づいてモデルをチューニングする効率的な視覚言語手法である。
我々のフレームワークはScienceQAデータセットの平均精度を0.77%上回る。
論文 参考訳(メタデータ) (2024-10-23T11:31:06Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - Bridging Compressed Image Latents and Multimodal Large Language Models [45.83457913639876]
本稿では、下流視覚タスクのニーズに合うように圧縮画像ラテントを適応させる最初の研究について述べる。
MLLMは、大規模な言語モデルの成功をテキスト以外のモダリティにまで拡大してきたが、その数十億ドルのスケールは、リソースに制約のあるエンドデバイスへのデプロイメントを妨げる。
本稿では,MLLMに基づく視覚タスクに対して,軽量なトランスフォーメーションネックとサロゲート損失を用いた圧縮画像ラテントを適応させる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-29T02:32:44Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。