論文の概要: Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models
- arxiv url: http://arxiv.org/abs/2602.22469v1
- Date: Wed, 25 Feb 2026 23:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.441616
- Title: Beyond Dominant Patches: Spatial Credit Redistribution For Grounded Vision-Language Models
- Title(参考訳): 支配的パッチを超えて: 接地型視覚ランゲージモデルのための空間的信用再分配
- Authors: Niamul Hassan Samin, Md Arifur Rahman, Abdullah Ibne Hanif, Juena Ahmed Noshin, Md Ashikur Rahman,
- Abstract要約: 視覚言語モデル(VLM)は、入力画像から欠落したオブジェクトを幻覚させる。
SCR(Spatial Credit Redistribution)は,高アテンションソースパッチから隠れ状態のアクティベーションをそのコンテキストに再分配する,トレーニング不要な推論時間介入である。
SCRはPOPE-Adversarialで幻覚を4.7-6.0ポイント減らし、CHAIR-sを3.7-5.2ポイント減らし(42-1%)、CHAIR-iを2.7-4.4ポイント減らし(44-8%)、CIDErを0.8ポイント減らした。
- 参考スコア(独自算出の注目度): 0.7919969809015935
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) frequently hallucinate objects absent from the input image. We trace this failure to spatial credit collapse: activation credit concentrating on sparse visual patches in early transformer layers, which suppresses contextual evidence and increases reliance on language priors. We introduce Spatial Credit Redistribution (SCR), a training-free inference-time intervention that redistributes hidden-state activation from high-attention source patches to their context, guided by low-entropy inputs. We evaluate six model families (Chameleon, LLaVA, and Qwen, including both Qwen-VL and Qwen2-VL) at scales of 7B, 13B, and 30B, on POPE and CHAIR benchmarks. SCR reduces hallucination by ~4.7-6.0 percentage points on POPE-Adversarial, cuts CHAIR-s by 3.7-5.2 percentage points (42-51 percent relative), and CHAIR-i by 2.7-4.4 percentage points (44-58 percent relative), and preserves CIDEr within 0.8 percentage points. Gains are largest for low-entropy inputs, consistent with the theoretical framework. SCR incurs only 43-56 ms overhead (small models: +43-46 ms; large models: +54-56 ms), roughly 3-6 times lower than OPERA and VCD and 1.3-1.7 times lower than OVCD (+72 ms), while Pareto-dominating all three on both hallucination rate and CIDEr, making it practical for real-time settings. A controlled ablation confirms that attention-guided source selection is essential: replacing it with uniform random selection reduces hallucination rate gains from ~4.7-6.0 percentage points to only ~2.6-3.4 percentage points, pointing to credit-collapse as the key driver.
- Abstract(参考訳): 視覚言語モデル(VLM)は、入力画像から欠落したオブジェクトを幻覚させる。
アクティベーションクレジットは,初期トランスフォーマー層における粗い視覚パッチに集中しており,文脈的証拠を抑え,言語先行への依存を増大させる。
SCR(Spatial Credit Redistribution)は、低エントロピー入力によって誘導される、高アテンションソースパッチからの隠れ状態の活性化をそれらのコンテキストに再分配する訓練不要な推論時間介入である。
我々は,POPEおよびCHAIRベンチマークを用いて,Qwen-VLおよびQwen2-VLを含む6種類のモデルファミリー(Chameleon,LLaVA,Qwen)を7B,13B,30Bのスケールで評価した。
SCRはPOPE-Adversarialで幻覚を4.7-6.0ポイント減らし、CHAIR-sを3.7-5.2ポイント減らし(42-1%)、CHAIR-iを2.7-4.4ポイント減らし(44-8%)、CIDErを0.8ポイント減らした。
利得は、理論的な枠組みと一致する低エントロピー入力に対して最大である。
SCRは43-56msのオーバーヘッド(小型モデル:+43-46ms、大型モデル:+54-56ms)しか発生せず、OPERAやVCDの約3-6倍、OVCDの約1.3-1.7倍(+72ms)、パレートは幻覚とCIDErの両方で3つすべてを支配しており、リアルタイム設定に実用的である。
均一なランダム選択に置き換えることで、幻覚率の上昇が ~4.7-6.0 から ~2.6-3.4 まで減少し、クレジット崩壊をキードライバーとしている。
関連論文リスト
- Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。
GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文 参考訳(メタデータ) (2026-01-12T20:33:39Z) - Toward More Reliable Artificial Intelligence: Reducing Hallucinations in Vision-Language Models [0.0]
視覚言語モデル(VLM)は、しばしば幻覚的コンテンツを生成するが、画像の内容に関する誤った主張である。
本稿では,不確実性誘導による視覚的再認識によってVLMの応答を反復的に改善することのできる,トレーニング不要な自己補正フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-08T13:58:46Z) - MapReduce LoRA: Advancing the Pareto Front in Multi-Preference Optimization for Generative Models [52.32146943039743]
人間のフィードバックからの強化学習は、生成モデルと人間の美学と知覚的嗜好を高度に一致させる。
MapReduce LoRA と Reward-aware Token Embedding (RaTE) の2つの補完手法を紹介する。
我々のフレームワークは、モダリティにまたがる新しい最先端のマルチ参照アライメントのレシピを定めている。
論文 参考訳(メタデータ) (2025-11-25T18:49:21Z) - Token-Level Inference-Time Alignment for Vision-Language Models [58.41370989069588]
VLM(Vision-Language Models)は、現代のマルチモーダルインテリジェンスの重要なバックボーンとなっている。
本稿では,基本VLMを凍結し,その分布を近似する報酬モデルをトレーニングする軽量フレームワークTITAを提案する。
推測中、暗黙の選好信号は報酬モデルと目標VLMの対数確率比として抽出され、密集した自己回帰フィードバックが得られる。
論文 参考訳(メタデータ) (2025-10-20T09:58:03Z) - SCISSOR: Mitigating Semantic Bias through Cluster-Aware Siamese Networks for Robust Classification [16.633948320306832]
ショートカット学習は、モデル一般化をアウト・オブ・ディストリビューションデータに損なう。
本稿では,SCISSOR(Semantic Cluster Intervention for Suppressing ShORtcut)を提案する。
コンピュータビジョンではChest-XRay,Not-MNIST,NLPタスクではGYAFC,Yelpの4つのベンチマークでSCISSORを評価した。
論文 参考訳(メタデータ) (2025-06-17T14:49:29Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities [146.4724093405187]
MM-Vet v2は、"image-text sequence understanding"と呼ばれる新しい"image-text sequence understanding"機能を含んでいる。
MM-Vet v2を用いて大規模マルチモーダルモデルのベンチマークを行った結果,Claude 3.5 Sonnetはスコア71.8の最良のモデルであり,スコア71.0のGPT-4oより若干優れていた。
論文 参考訳(メタデータ) (2024-08-01T17:59:54Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。