論文の概要: Visual Attention Never Fades: Selective Progressive Attention ReCalibration for Detailed Image Captioning in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2502.01419v1
- Date: Mon, 03 Feb 2025 14:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:03:24.949625
- Title: Visual Attention Never Fades: Selective Progressive Attention ReCalibration for Detailed Image Captioning in Multimodal Large Language Models
- Title(参考訳): 視覚的注意は消えない:多モーダル大言語モデルにおける詳細な画像キャプションのための選択的進行的注意再校正
- Authors: Mingi Jung, Saehuyng Lee, Eunji Kim, Sungroh Yoon,
- Abstract要約: 本稿では,復号化時の視覚トークンの寄与を高める訓練自由手法を提案する。
自動評価と人的評価の両方を取り入れた実験は,既存の手法がリコールコストでMLLMの精度を向上させることを実証した。
- 参考スコア(独自算出の注目度): 35.49886398402627
- License:
- Abstract: Detailed image captioning is essential for tasks like data generation and aiding visually impaired individuals. High-quality captions require a balance between precision and recall, which remains challenging for current multimodal large language models (MLLMs). In this work, we hypothesize that this limitation stems from weakening and increasingly noisy visual attention as responses lengthen. To address this issue, we propose SPARC (Selective Progressive Attention ReCalibration), a training-free method that enhances the contribution of visual tokens during decoding. SPARC is founded on three key observations: (1) increasing the influence of all visual tokens reduces recall; thus, SPARC selectively amplifies visual tokens; (2) as captions lengthen, visual attention becomes noisier, so SPARC identifies critical visual tokens by leveraging attention differences across time steps; (3) as visual attention gradually weakens, SPARC reinforces it to preserve its influence. Our experiments, incorporating both automated and human evaluations, demonstrate that existing methods improve the precision of MLLMs at the cost of recall. In contrast, our proposed method enhances both precision and recall with minimal computational overhead.
- Abstract(参考訳): 詳細な画像キャプションは、データ生成や視覚障害者支援といったタスクに不可欠である。
高品質なキャプションには精度とリコールのバランスが必要であり、現在のマルチモーダルな大言語モデル(MLLM)では依然として困難である。
本研究では、この制限は、応答が長くなるにつれて、弱く、騒々しい視覚的注意に起因する、という仮説を立てる。
この問題に対処するために,復号時の視覚トークンの寄与を高める訓練不要なSPARC(Selective Progressive Attention ReCalibration)を提案する。
SPARCは,(1)視覚的トークンの影響を増大させるとリコールが減少する,(2)視覚的トークンを選択的に増幅する,(2)キャプションが長くなる,視覚的注意がノイズになる,SPARCは時間ステップ間での注意差を利用して重要な視覚的トークンを識別する,(3)視覚的注意が徐々に弱まる,SPARCはそれを強化してその影響を維持する,という3つの重要な観察に基づいて構築されている。
自動評価と人的評価の両方を取り入れた実験は,既存の手法がリコールコストでMLLMの精度を向上させることを実証した。
対照的に,提案手法は計算オーバーヘッドを最小限に抑え,精度とリコールを両立させる。
関連論文リスト
- Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - Fixing Imbalanced Attention to Mitigate In-Context Hallucination of Large Vision-Language Model [0.0]
大規模視覚言語モデル (LVLM) は視覚的内容の理解と記述において顕著な能力を示した。
これらのモデルは、しばしば幻覚の振る舞いを示し、入力画像に存在しない物体や詳細を含む記述を生成する。
本稿では,視覚的接地を維持するために,選択的トークン強調と頭部特異的変調を組み合わせた新しいアテンション修正手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T15:22:31Z) - AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。
本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。
提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文 参考訳(メタデータ) (2025-01-16T13:34:33Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - [CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。
しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。
本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-12-08T05:29:39Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Don't Miss the Forest for the Trees: Attentional Vision Calibration for Large Vision Language Models [16.185253476874006]
盲目トークンと呼ばれるいくつかの画像トークンへの過剰な注意は、視覚オブジェクトのきめ細かい理解を必要とするタスクにおいて幻覚反応をもたらす。
注意重みの低いトークンは、しばしば、ニュアンスオブジェクトの詳細を特定するのに不可欠な情報を持っている。
盲目トークンの過剰エンハンシスに対処するために,AVC(Attentional Vision)と呼ばれる手法を導入する。
論文 参考訳(メタデータ) (2024-05-28T04:40:57Z) - Linguistic More: Taking a Further Step toward Efficient and Accurate
Scene Text Recognition [92.6211155264297]
Scene Text Recognition (STR) タスクの単純さと効率性から,視覚モデルへの注目が高まっている。
最近の視覚モデルでは,(1)純粋な視覚に基づく問合せによって注意のドリフトが発生し,認識不良が生じ,言語的不感なドリフト(LID)問題として要約される。
我々は,正確なテキスト認識のための視覚モデルの言語的能力を検討するために,$textbfL$inguistic $textbfP$erception $textbfV$ision model (LPV)を提案する。
論文 参考訳(メタデータ) (2023-05-09T02:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。