論文の概要: R-CoV: Region-Aware Chain-of-Verification for Alleviating Object Hallucinations in LVLMs
- arxiv url: http://arxiv.org/abs/2604.20696v1
- Date: Wed, 22 Apr 2026 15:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.203539
- Title: R-CoV: Region-Aware Chain-of-Verification for Alleviating Object Hallucinations in LVLMs
- Title(参考訳): R-CoV:LVLMにおける物体幻覚の緩和のための領域認識チェイン・オブ・検証
- Authors: Jiahao Xie, Alessio Tonioni, Nathalie Rauschmayr, Federico Tombari, Bernt Schiele,
- Abstract要約: Region-Aware Chain-of-Verification (R-CoV) は、大規模視覚言語モデルにおける物体の幻覚を緩和する視覚連鎖検証法である。
R-CoVは、初期応答生成、エンティティ抽出、座標生成、領域記述、検証実行、最終応答生成の6つのステップから構成される。
- 参考スコア(独自算出の注目度): 88.62912181680413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) have demonstrated impressive performance in various multimodal understanding and reasoning tasks. However, they still struggle with object hallucinations, i.e., the claim of nonexistent objects in the visual input. To address this challenge, we propose Region-aware Chain-of-Verification (R-CoV), a visual chain-of-verification method to alleviate object hallucinations in LVLMs in a post-hoc manner. Motivated by how humans comprehend intricate visual information -- often focusing on specific image regions or details within a given sample -- we elicit such region-level processing from LVLMs themselves and use it as a chaining cue to detect and alleviate their own object hallucinations. Specifically, our R-CoV consists of six steps: initial response generation, entity extraction, coordinate generation, region description, verification execution, and final response generation. As a simple yet effective method, R-CoV can be seamlessly integrated into various LVLMs in a training-free manner and without relying on external detection models. Extensive experiments on several widely used hallucination benchmarks across multiple LVLMs demonstrate that R-CoV can significantly alleviate object hallucinations in LVLMs. Project page: https://github.com/Jiahao000/R-CoV.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、様々なマルチモーダル理解および推論タスクにおいて印象的な性能を示した。
しかし、それらはまだ物体の幻覚、すなわち視覚入力における存在しない物体の主張に苦戦している。
この課題に対処するため,LVLMの視覚的連鎖検証法であるRerea-Aware Chain-of-Verification (R-CoV)を提案する。
人間が複雑な視覚情報をどう理解するか – 多くの場合、特定の画像領域やサンプル内の詳細に注目する — によって、私たちはLVLM自体からそのような領域レベルの処理を抽出し、それを連鎖キューとして使用して、自身のオブジェクト幻覚を検出し、緩和する。
具体的には、初期応答生成、エンティティ抽出、座標生成、領域記述、検証実行、最終応答生成の6つのステップからなる。
単純で効果的な方法として、R-CoVは外部検出モデルに頼ることなく、トレーニングのない方法で様々なLVLMにシームレスに統合することができる。
複数のLVLMで広く使用されている幻覚ベンチマークの広範な実験により、R-CoVはLVLMの物体幻覚を著しく緩和できることが示された。
プロジェクトページ:https://github.com/Jiahao000/R-CoV.com
関連論文リスト
- From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。
本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T03:04:11Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset [23.49107734068849]
本稿では,ChatGPTによる視覚幻覚評価データセットを大規模に提案する。
VHEの本質は、特定の画像についてMLLMに質問し、幻覚への感受性を評価することである。
低レベル(対象/属性認識)から中レベル(知覚/位置認識とカウント)までの5つの視覚的認識タスクが検討されている。
論文 参考訳(メタデータ) (2024-03-17T06:53:44Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。