論文の概要: From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception
- arxiv url: http://arxiv.org/abs/2604.12508v1
- Date: Tue, 14 Apr 2026 09:32:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.378693
- Title: From Attenuation to Attention: Variational Information Flow Manipulation for Fine-Grained Visual Perception
- Title(参考訳): 減衰から注意へ:細粒度視覚知覚のための変分情報フロー操作
- Authors: Jilong Zhu, Yang Feng,
- Abstract要約: MLLM(Multimodal Large Language Models)は、一般的な視覚的理解において印象的な能力を示す。
彼らはしばしば、小さな物体を識別したり、微妙な視覚的関係を識別する必要のある、きめ細かい知覚タスクに干渉する。
この制限は、ネットワーク伝搬中の支配的なテキストトークンによって、細粒度の細かい視覚信号が早期に抑制または希釈される現象である、視覚減衰に起因している。
既存の入力中心のソリューションは、情報損失の本質的なメカニズムを根本的に逆転させることができない。
本稿では,この課題に対処するための変動情報フロー(VIF)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.4823697158657
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Multimodal Large Language Models (MLLMs) have demonstrated impressive capabilities in general visual understanding, they frequently falter in fine-grained perception tasks that require identifying tiny objects or discerning subtle visual relationships. We attribute this limitation to Visual Attenuation: a phenomenon where sparse fine-grained visual signals are prematurely suppressed or diluted by dominant textual tokens during network propagation, resulting in a "loss of focus" during the deep-level decision-making process. Existing input-centric solutions fail to fundamentally reverse this intrinsic mechanism of information loss. To address this challenge, we propose the Variational Information Flow (VIF) framework. Adopting a probabilistic perspective, VIF leverages a Conditional Variational Autoencoder (CVAE) to model the visual saliency relevant to the question-answer pair as a latent distribution. As a plug-and-play module, VIF can be integrated into existing architectures. Extensive evaluations across diverse benchmarks, covering General VQA, fine-grained perception, and visual grounding, demonstrate that VIF yields competitive improvements over previous methods, validating its effectiveness in enhancing the fine-grained perception of MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、一般的な視覚的理解において印象的な能力を示してきたが、小さな物体の識別や微妙な視覚的関係の識別を必要とする微粒な知覚タスクにしばしば干渉する。
我々は、この制限を視覚減衰(Visual Attenuation)とみなす: ネットワーク伝搬中に支配的なテキストトークンによって、きめ細かな視覚信号が早期に抑制または希釈される現象で、ディープレベルの意思決定プロセスにおいて「集中の欠如」をもたらす。
既存の入力中心のソリューションは、情報損失の本質的なメカニズムを根本的に逆転させることができない。
この課題に対処するために,変分情報フロー(VIF)フレームワークを提案する。
確率論的視点を採用すると、VIFは条件付き変分オートエンコーダ(CVAE)を利用して、質問応答対に関連する視覚的唾液度を潜時分布としてモデル化する。
プラグアンドプレイモジュールとして、VIFは既存のアーキテクチャに統合できる。
一般的なVQA、きめ細かい知覚、視覚的接地など、様々なベンチマークにわたる広範囲な評価は、VIFが従来の方法よりも競争力のある改善をもたらし、MLLMのきめ細かい知覚を高める効果を検証していることを示している。
関連論文リスト
- Reflect to Inform: Boosting Multimodal Reasoning via Information-Gain-Driven Verification [55.357038267439684]
Visual Re-Examination (VRE)は、MLLMが視覚的な入力を追加することなく推論中に自律的に視覚的イントロスペクションを実行することができる自己進化型トレーニングフレームワークである。
VREは推論精度と知覚信頼性を継続的に改善し、特にロングチェーン環境では幻覚を著しく低減する。
論文 参考訳(メタデータ) (2026-03-27T12:22:13Z) - Predictive Regularization Against Visual Representation Degradation in Multimodal Large Language Models [84.94288033791346]
我々は,MLLMにおける視覚的表現の劣化という,広範にわたる課題を明らかにするために,詳細な診断分析を行う。
我々は,この現象を,単一のテキスト生成目標によって引き起こされる視覚的犠牲とみなし,そのモデルが解答生成の最適化のためにその視覚的忠実度を損なう。
本研究では,初期視覚特性を予測するために,劣化した中間特徴を強制的に予測し,MLLMの内部表現に固有の視覚特性を維持するための予測正則化を提案する。
論文 参考訳(メタデータ) (2026-03-21T13:10:37Z) - Rethinking VLMs for Image Forgery Detection and Localization [55.32700985102152]
本稿では,視覚言語モデル(VLM)をフル活用して画像偽造検出・局所化(IFDL)タスクを支援する方法について検討する。
これらの知見に基づいて,IFDL-VLMと呼ばれる新しいIFDLパイプラインを提案する。
実験結果から, 検出, 局所化, 解釈可能性において, 常に新しい最先端性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2026-03-13T12:21:31Z) - HAMLET-FFD: Hierarchical Adaptive Multi-modal Learning Embeddings Transformation for Face Forgery Detection [6.060036926093259]
HAMLET-FFDは顔偽造検出のためのクロスドメイン一般化フレームワークである。
視覚的証拠と概念的手がかりを統合し、専門家の法医学的分析をエミュレートする。
HAMLET-FFDは設計上、外部プラグインとして機能する全ての事前訓練されたパラメータを凍結する。
論文 参考訳(メタデータ) (2025-07-28T15:09:52Z) - GLIMPSE: Holistic Cross-Modal Explainability for Large Vision-Language Models [0.0]
GLIMPSEはLVLM出力を最も関連性の高い視覚的エビデンスとテキスト信号に共同で属性付けるモデルに依存しないフレームワークである。
GLIMPSEは、勾配重み付けされた注意、適応層伝播、および関連重み付けされたトークン集合を融合させ、全体的な応答レベル熱マップを生成する。
我々は,LVLMのクロスモーダル属性,トレース推論のダイナミクス,系統的ミスアライメントの分析,幻覚と偏見の診断,透明性の確保に関する詳細な知見を明らかにするための分析的アプローチを実証する。
論文 参考訳(メタデータ) (2025-06-23T18:00:04Z) - SECOND: Mitigating Perceptual Hallucination in Vision-Language Models via Selective and Contrastive Decoding [5.976839106353883]
SECOND: Selective and Contrastive Decodingは、視覚言語モデルがオブジェクト中心の方法でマルチスケールの視覚情報を活用できるようにする新しいアプローチです。
SECONDは知覚幻覚を著しく減らし、幅広いベンチマークを上回ります。
論文 参考訳(メタデータ) (2025-06-10T02:55:38Z) - Exploring Implicit Visual Misunderstandings in Multimodal Large Language Models through Attention Analysis [21.869968563545736]
我々は、暗黙的な視覚的誤解(IVM)を定義し、MLLMは視覚的入力を完全に理解することなく正しい回答を提供する。
IVMの定量化には,スケール非依存の計量,テクスチャータテンションの精度,新しいベンチマークを導入する。
我々は、より微細な粒度にアプローチを拡張し、その効果を単調なシナリオで実証する。
論文 参考訳(メタデータ) (2025-05-15T17:52:40Z) - Mitigating Visual Knowledge Forgetting in MLLM Instruction-tuning via Modality-decoupled Gradient Descent [72.1517476116743]
近年のMLLMは、大規模マルチモーダルデータセットで事前訓練された後に、視覚的理解と推論能力の発達を見せている。
直接微調整や連続学習といった既存のアプローチでは、この問題に明示的に対処することができない。
本稿では,視覚的表現を忘れることの劣化を定量化するために,効果的なランクを活用する新しい視点を提案する。
視覚表現の効果的なランクを維持するために勾配更新を規制するMDGD法を提案する。
論文 参考訳(メタデータ) (2025-02-17T12:26:34Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。