論文の概要: Energy-Guided Decoding for Object Hallucination Mitigation
- arxiv url: http://arxiv.org/abs/2507.07731v1
- Date: Thu, 10 Jul 2025 13:12:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.407161
- Title: Energy-Guided Decoding for Object Hallucination Mitigation
- Title(参考訳): 物体の幻覚軽減のためのエネルギー誘導復号法
- Authors: Xixi Liu, Ailin Deng, Christopher Zach,
- Abstract要約: 大規模視覚言語モデル(LVLM)は,Yes比において大きな不均衡を示すことを示す。
最小のエネルギースコアを持つ層から隠れた状態を動的に選択するエネルギーベースの復号法を提案する。
3つのベンチマークでパフォーマンスを向上しながら、イエス比のバイアスを減らすのにシンプルだが効果的である。
- 参考スコア(独自算出の注目度): 11.67489362272148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mitigating object hallucination in large vision-language models (LVLMs) is critical to their safe deployment. Existing methods either are restricted to specific decoding methods, or demand sophisticated modifications to visual inputs, or rely on knowledge from external models. In this work, we first reveal the phenomenon that VLMs exhibit significant imbalance in the ``Yes'' ratio ( \ie, the fraction of ``Yes'' answers among the total number of questions) across three different visual question answering (VQA) datasets. Furthermore, we propose an energy-based decoding method, which dynamically selects the hidden states from the layer with minimal energy score. It is simple yet effective in reducing the bias for the yes ratio while boosting performance across three benchmarks (POPE, MME, and MMVP). Our method consistently improves accuracy and F1 score on three VQA datasets across three commonly used VLMs over several baseline methods. The average accuracy improvement is 4.82% compared to greedy decoding. Moreover, the average yes-ratio gap reduction is 8.81%, meaning the proposed method is less biased as shown in Figure 1.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)における物体幻覚の緩和は、その安全な配置に不可欠である。
既存の手法は特定の復号法に制限されるか、視覚的な入力に洗練された修正を必要とするか、あるいは外部モデルからの知識に依存している。
本稿では,3つの異なる視覚的質問応答(VQA)データセット間で,VLM が `Yes'' 比 ( \ie, the fraction of `Yes'' answer among the total number of question) において大きな不均衡を示す現象を明らかにする。
さらに、最小エネルギースコアで層から隠れた状態を動的に選択するエネルギーベースの復号法を提案する。
3つのベンチマーク(POPE、MME、MMVP)のパフォーマンスを向上しながら、イエス比のバイアスを低減するのにシンプルだが効果的である。
提案手法は,3つのVLMを対象とした3つのVQAデータセット上でのF1スコアと精度を連続的に向上させる。
平均精度はグリーディ復号よりも4.82%向上している。
さらに、平均YES比ギャップ低減率は8.81%であり、図1に示すように、提案手法のバイアスは小さくなっている。
関連論文リスト
- Less is More: Efficient Black-box Attribution via Minimal Interpretable Subset Selection [52.716143424856185]
部分モジュラー部分集合選択の最適化問題として重要領域の帰属を再構成するLiMA(Less input is more faithful for Attribution)を提案する。
LiMAは、エラーを最小限に抑える最適な帰属境界を確保しながら、最も重要かつ最も重要でないサンプルを識別する。
また, 帰属効率が1.6倍に向上し, 帰属効率が向上した。
論文 参考訳(メタデータ) (2025-04-01T06:58:15Z) - From Trial to Triumph: Advancing Long Video Understanding via Visual Context Sample Scaling and Self-reward Alignment [51.3011761744484]
大規模言語モデルは単一の推論で有限フレームしか処理できない。
視覚的コンテキストサンプリングにより複数の予測を提案し,次に最終的な予測を選択するためのスコアリング機構を提案する。
実験により,この手法がビデオ質問の回答の正解を高い割合でカバーしていることが示されている。
論文 参考訳(メタデータ) (2025-03-26T11:53:03Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - The Impact of Input Order Bias on Large Language Models for Software Fault Localization [8.22737389683156]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて大きな可能性を示しています。
本研究では,入力順序と文脈サイズがLLM性能に与える影響について検討する。
論文 参考訳(メタデータ) (2024-12-25T02:48:53Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。