論文の概要: Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.22469v2
- Date: Wed, 04 Mar 2026 18:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 14:47:28.676931
- Title: Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models
- Title(参考訳): 支配的パッチを超えて: 接地型視覚ランゲージモデルのための空間的信用再分配
- Authors: Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif Arean, Juena Ahmed Noshin, Md Ashikur Rahman,
- Abstract要約: VLM(Vision-Language Models)は、入力画像に存在しないオブジェクトを幻覚させる。
本研究では,SCR (Spatial Credit Redistribution) を提案する。
SCRは幻覚の低減、生成品質、遅延のトレードオフを改善する。
- 参考スコア(独自算出の注目度): 0.7919969809015935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) often hallucinate objects that are not present in the input image. We identify a contributing cause of this behavior, which we term spatial credit collapse: in early transformer layers, hidden-state activation concentrates on a small number of visual patches, suppressing surrounding contextual evidence and increasing reliance on language priors. Across seven models we observe a strong correlation between visual attention entropy and hallucination rate (r = -0.65, p < 0.001), suggesting that reduced spatial credit diversity contributes to hallucination. To address this issue we propose Spatial Credit Redistribution (SCR), a training-free inference-time method. SCR uses a lightweight two-pass procedure. A diagnostic pass identifies the top-K high-attention source patches and their spatial neighbors. A redistribution pass then scales each source by 1/lambda (~0.91) and injects a (lambda - 1) weighted copy of its hidden state into neighboring patches, restoring suppressed visual context without modifying model weights. Because the diagnostic pass is performed once per image and reused across the output sequence, the added latency is negligible (<0.5 ms per token for 100-token responses). We evaluate SCR across seven model configurations from four VLM families (Chameleon, LLaVA-1.5, Qwen-VL/Qwen2-VL, and InternVL2) on five benchmarks: POPE, CHAIR, MME, HallusionBench, and AMBER. SCR reduces POPE-Adversarial hallucination by 4.6-6.0 percentage points and CHAIR-s by 41-51 percent while preserving caption quality (CIDEr drop <=0.8). Compared with prior inference-time methods including OPERA, VCD, OA-VCD, DoLa, VLI, SID, and CRoPS, SCR achieves a better trade-off between hallucination reduction, generation quality, and latency.
- Abstract(参考訳): VLM(Vision-Language Models)は、入力画像に存在しないオブジェクトを幻覚させる。
初期変圧器層では、隠れ状態の活性化は少数の視覚的パッチに集中し、周囲の文脈的証拠を抑え、言語の先行性に依存している。
7つのモデルにおいて,視覚的注意エントロピーと幻覚率(r = -0.65, p < 0.001)の相関が強く,空間的信用の多様性の低下が幻覚に寄与することが示唆された。
この問題に対処するため,SCR(Spatial Credit Redistribution)を提案する。
SCRは軽量の2パスプロシージャを使用する。
診断パスは、トップKの高アテンションソースパッチとその空間近傍を識別する。
再配布パスは、各ソースを 1/lambda (~0.91) でスケールし、(lambda - 1) 隠れた状態の重み付けされたコピーを隣のパッチに注入し、モデルの重みを変更することなく、抑制された視覚的コンテキストを復元する。
診断パスは画像毎に1回実行され、出力シーケンス全体で再利用されるため、追加のレイテンシは無視できる(100個のトークンに対して (<0.5 ms) )。
我々は,PPE,CHAIR,MME,HalusionBench,AMBERの4種類のVLMファミリー(Chameleon,LLaVA-1.5,Qwen-VL/Qwen2-VL,InternVL2)のSCRを,POPE,CHAIR,MME,HalusionBench,AMBERの5つのベンチマークで評価した。
SCRは、POPE-対向幻覚を4.6-6.0ポイント、CHAIR-sを41-51パーセント減らし、キャプションの品質を保っている(CIDEr drop <=0.8)。
OPERA, VCD, OA-VCD, DoLa, VLI, SID, CRoPS などの先行推定時間法と比較して, SCR は幻覚の低減, 生成品質, 遅延のトレードオフが良好である。
関連論文リスト
- Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。
LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。
本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文 参考訳(メタデータ) (2026-01-28T05:50:52Z) - Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。
GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文 参考訳(メタデータ) (2026-01-12T20:33:39Z) - Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models [0.0]
視覚言語モデル(VLM)は、しばしば幻覚的コンテンツを生成するが、画像の内容に関する誤った主張である。
本稿では,不確実性誘導による視覚的再認識によってVLMの応答を反復的に改善することのできる,トレーニング不要な自己補正フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-08T13:58:46Z) - MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models [52.32146943039743]
人間のフィードバックからの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介する。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
論文 参考訳(メタデータ) (2025-11-25T18:49:21Z) - PruneHal: Reducing Hallucinations in Multi-modal Large Language Models through Adaptive KV Cache Pruning [87.35309934860938]
大型言語モデル(MLLM)における幻覚は、視覚トークンに割り当てられた注意不足と強く関連している。
我々は、適応的なKVキャッシュプルーニングを活用し、重要な視覚情報に焦点をあてるトレーニングフリーでシンプルで効果的な方法である textbfPruneHal を提案する。
論文 参考訳(メタデータ) (2025-10-22T02:41:07Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - Cross-Layer Attention Probing for Fine-Grained Hallucination Detection [6.83291363146574]
幻覚検出のための新しいアクティベーション・プロブリング技術であるCLAP(Cross-Layer Attention Probing)を提案する。
実験により,CLAPは脱コード応答と高温度でサンプリングされた応答の両方のベースラインと比較して幻覚検出を改善することが示された。
CLAPは、アウト・オブ・ディストリビューションを適用しても高い信頼性を維持する。
論文 参考訳(メタデータ) (2025-09-04T14:37:34Z) - Cure or Poison? Embedding Instructions Visually Alters Hallucination in Vision-Language Models [12.215295420714787]
VLM(Vision-Language Models)はしばしば幻覚に悩まされる。
本稿では,画像に直接テキスト命令を埋め込むシンプルな方法であるPrompt-in-Imageを提案する。
本手法は,3つのオープンソースVLM (Qwen2.5-VL, LLaVA-1.5, InstructBLIP) で評価する。
論文 参考訳(メタデータ) (2025-08-03T09:11:18Z) - SCISSOR: Mitigating Semantic Bias through Cluster-Aware Siamese Networks for Robust Classification [16.633948320306832]
ショートカット学習は、モデル一般化をアウト・オブ・ディストリビューションデータに損なう。
本稿では,SCISSOR(Semantic Cluster Intervention for Suppressing ShORtcut)を提案する。
コンピュータビジョンではChest-XRay,Not-MNIST,NLPタスクではGYAFC,Yelpの4つのベンチマークでSCISSORを評価した。
論文 参考訳(メタデータ) (2025-06-17T14:49:29Z) - Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [78.78822033285938]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - Mitigating Object Hallucination via Concentric Causal Attention [71.27325347912823]
物体の幻覚は回転位置と密接に結びついていることを示す。
RoPEは、広く採用されている位置依存モデリング設計である。
簡易かつ効果的な位置アライメント戦略であるConcentric Causal Attention (CCA)を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:54:53Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。