論文の概要: Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
- arxiv url: http://arxiv.org/abs/2605.00814v1
- Date: Fri, 01 May 2026 17:54:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:29.033061
- Title: Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
- Title(参考訳): 永続的視覚記憶:LVLMの深部生成に対する知覚の持続性
- Authors: Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng,
- Abstract要約: Persistent Visual Memoryは、持続的でオンデマンドな視覚知覚を保証するために設計された軽量の学習可能なモジュールである。
Qwen3-VLモデルの実験は、PVMが無視可能なパラメータオーバーヘッドで顕著な改善をもたらすことを示した。
深部分析により、PVMは長さ誘起信号減衰に抵抗し、内部予測収束を加速できることが明らかになった。
- 参考スコア(独自算出の注目度): 66.15429821530503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.
- Abstract(参考訳): 自己回帰型LVLM(Large Vision-Language Models)は、マルチモーダルタスクにおいて顕著な習熟度を示す一方で、テキスト履歴の蓄積が注意分割関数を拡大し、生成したシーケンス長と逆向きに視覚的注意が崩壊する「視覚信号希釈」現象に直面している。
これに対抗するために、持続的でオンデマンドな視覚知覚を保証するために設計された軽量学習可能なモジュールであるPersistent Visual Memory (PVM)を提案する。
LVLMのFeed-Forward Network(FFN)と並行して並列ブランチとして統合されたPVMは、視覚の正確な知覚のために直接視覚的な埋め込みを提供する、距離に依存しない検索経路を確立し、それによって、深い生成に固有の信号の抑制を構造的に緩和する。
Qwen3-VLモデルに関する大規模な実験は、PVMが無視可能なパラメータオーバーヘッドで顕著な改善をもたらし、特に永続的な視覚的知覚を必要とする複雑な推論タスクにおいて、4Bスケールと8Bスケールで一貫した平均精度の向上を提供することを示した。
さらに、深部分析により、PVMは長さ誘起信号減衰に抵抗し、内部予測収束を加速できることが明らかになった。
関連論文リスト
- From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception [12.4823697158657]
MLLM(Multimodal Large Language Models)は、一般的な視覚的理解において印象的な能力を示す。
彼らはしばしば、小さな物体を識別したり、微妙な視覚的関係を識別する必要のある、きめ細かい知覚タスクに干渉する。
この制限は、ネットワーク伝搬中の支配的なテキストトークンによって、細粒度の細かい視覚信号が早期に抑制または希釈される現象である、視覚減衰に起因している。
既存の入力中心のソリューションは、情報損失の本質的なメカニズムを根本的に逆転させることができない。
本稿では,この課題に対処するための変動情報フロー(VIF)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T09:32:13Z) - Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Visually-Guided Policy Optimization for Multimodal Reasoning [60.035908460318126]
本稿では,VGPO(Visually-Guided Policy Optimization)を提案する。
VGPOは当初、視覚的類似性を活用して視覚的手がかりをローカライズし増幅する視覚的注意補償機構を導入した。
VGPOは、数学的多モーダル推論や視覚依存タスクにおいて、より優れた視覚的活性化と優れた性能を実現する。
論文 参考訳(メタデータ) (2026-04-10T14:22:38Z) - Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Revealing and Enhancing Core Visual Regions: Harnessing Internal Attention Dynamics for Hallucination Mitigation in LVLMs [67.69730908817321]
LVLMの内部ポジティブ・アテンション・ダイナミクス(PAD)は、注意シンクの歪みの下で自然に意味的にコアとなる視覚領域を明らかにする。
PADE(Positive Attention Dynamics Enhancement)は、意味的にコアとなる視覚領域を識別するためのPADマップを構築する訓練不要の注意介入である。
論文 参考訳(メタデータ) (2026-02-17T13:08:06Z) - Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - GLIMPSE: Holistic Cross-Modal Explainability for Large Vision-Language Models [0.0]
GLIMPSEはLVLM出力を最も関連性の高い視覚的エビデンスとテキスト信号に共同で属性付けるモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および関連重み付けされたトークン集合を融合させ、全体的な応答レベル熱マップを生成する。
我々は,LVLMのクロスモーダル属性,トレース推論のダイナミクス,系統的ミスアライメントの分析,幻覚と偏見の診断,透明性の確保に関する詳細な知見を明らかにするための分析的アプローチを実証する。
論文 参考訳(メタデータ) (2025-06-23T18:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。