論文の概要: Mitigating Object Hallucination via Robust Local Perception Search
- arxiv url: http://arxiv.org/abs/2506.06729v1
- Date: Sat, 07 Jun 2025 09:27:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.452369
- Title: Mitigating Object Hallucination via Robust Local Perception Search
- Title(参考訳): ロバスト局所知覚探索による物体の幻覚の緩和
- Authors: Zixian Gao, Chao Yang, Zhanhui Zhou, Xing Xu, Chaochao Lu,
- Abstract要約: 局所知覚探索(Local Perception Search, LPS)は、単純かつ訓練のない推論における復号法であり、幻覚を効果的に抑制する。
LPSはベースラインに比べて幻覚の発生率を著しく低下させ,特に騒音条件下では異常な性能を示した。
- 参考スコア(独自算出の注目度): 11.570368427723961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have enabled them to effectively integrate vision and language, addressing a variety of downstream tasks. However, despite their significant success, these models still exhibit hallucination phenomena, where the outputs appear plausible but do not align with the content of the images. To mitigate this issue, we introduce Local Perception Search (LPS), a decoding method during inference that is both simple and training-free, yet effectively suppresses hallucinations. This method leverages local visual prior information as a value function to correct the decoding process. Additionally, we observe that the impact of the local visual prior on model performance is more pronounced in scenarios with high levels of image noise. Notably, LPS is a plug-and-play approach that is compatible with various models. Extensive experiments on widely used hallucination benchmarks and noisy data demonstrate that LPS significantly reduces the incidence of hallucinations compared to the baseline, showing exceptional performance, particularly in noisy settings.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の最近の進歩は、視覚と言語を効果的に統合し、様々な下流タスクに対処することを可能にする。
しかし、その大きな成功にもかかわらず、これらのモデルは依然として幻覚現象を示しており、出力は可視に見えるが、画像の内容と一致しない。
この問題を軽減するために,提案手法は単純かつトレーニング不要で,幻覚を効果的に抑制する推論時の復号法であるLocal Perception Search (LPS)を導入する。
この方法は、復号プロセスを修正するために、局所的な視覚的事前情報を値関数として活用する。
さらに,高レベルの画像ノイズのあるシナリオでは,局所的な視覚的先行がモデル性能に与える影響がより顕著であることがわかった。
特に、LPSは様々なモデルと互換性のあるプラグアンドプレイのアプローチである。
広範に用いられている幻覚ベンチマークとノイズデータによる大規模な実験により、LPSはベースラインと比較して幻覚の発生率を著しく低下させ、特にノイズのある環境では例外的な性能を示した。
関連論文リスト
- Mitigating Object Hallucinations in MLLMs via Multi-Frequency Perturbations [44.83933994734478]
大規模言語モデル (MLLM) は視覚的タスクにおいて顕著な性能を示した。
しかし、MLLMによって生成された応答の正しさは、しばしば物体の幻覚によって損なわれる。
これらの幻覚の主な原因は、物体検出における特定の画像周波数特徴に対するモデルの過度な感受性である。
論文 参考訳(メタデータ) (2025-03-19T04:39:45Z) - PerturboLLaVA: Reducing Multimodal Hallucinations with Perturbative Visual Training [56.172959986096316]
本稿では,マルチモーダル大規模言語モデル(MLLM)における幻覚の課題を解決することを目的とする。
HalFscoreは言語グラフ上に構築された新しい計量であり、密度の高いキャプションの精度と完全性の両方を粒度レベルで評価するように設計されている。
PerturboLLaVAは、生成されたキャプションの忠実度を著しく改善し、マルチモーダル幻覚に対する既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2025-03-09T07:07:03Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において顕著な機能を示す。
彼らはしばしば、幻覚として知られる視覚的内容が正確に反映されていないように思われる応答を生成する。
近年のアプローチでは、推論段階における復号化戦略を調整することで幻覚を緩和するための訓練不要な手法が導入されている。
textbfVisutextbfal textbfLayer Fustextbfion textbfD
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - Alleviating Hallucinations in Large Vision-Language Models through Hallucination-Induced Optimization [123.54980913741828]
大規模ビジュアル言語モデル(LVLM)は、マルチモーダルデータの理解において、例外的な能力を示した。
彼らは必然的に幻覚に悩まされ、生成されたテキストと対応するイメージを切断する。
現在の視覚的コントラスト復号法のほとんどは、視覚的不確実性情報を導入して幻覚を緩和しようとするものである。
しかし、彼らは幻覚トークンを正確に誘導するのに苦労し、幻覚を緩和する効果を著しく制限した。
論文 参考訳(メタデータ) (2024-05-24T08:46:31Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。