論文の概要: CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base
- arxiv url: http://arxiv.org/abs/2502.12591v1
- Date: Tue, 18 Feb 2025 07:06:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 20:12:08.838342
- Title: CutPaste&Find: Efficient Multimodal Hallucination Detector with Visual-aid Knowledge Base
- Title(参考訳): CutPaste&Find:視覚支援知識ベースを用いた効率的なマルチモーダル幻覚検出器
- Authors: Cong-Duy Nguyen, Xiaobao Wu, Duc Anh Vu, Shuai Zhao, Thong Nguyen, Anh Tuan Luu,
- Abstract要約: LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste&Findを提案する。
私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。
類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
- 参考スコア(独自算出の注目度): 29.477973983931083
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated impressive multimodal reasoning capabilities, but they remain susceptible to hallucination, particularly object hallucination where non-existent objects or incorrect attributes are fabricated in generated descriptions. Existing detection methods achieve strong performance but rely heavily on expensive API calls and iterative LVLM-based validation, making them impractical for large-scale or offline use. To address these limitations, we propose CutPaste\&Find, a lightweight and training-free framework for detecting hallucinations in LVLM-generated outputs. Our approach leverages off-the-shelf visual and linguistic modules to perform multi-step verification efficiently without requiring LVLM inference. At the core of our framework is a Visual-aid Knowledge Base that encodes rich entity-attribute relationships and associated image representations. We introduce a scaling factor to refine similarity scores, mitigating the issue of suboptimal alignment values even for ground-truth image-text pairs. Comprehensive evaluations on benchmark datasets, including POPE and R-Bench, demonstrate that CutPaste\&Find achieves competitive hallucination detection performance while being significantly more efficient and cost-effective than previous methods.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、印象的なマルチモーダル推論能力を示しているが、それは幻覚、特に存在しないオブジェクトや誤った属性が生成された記述で作られる物体幻覚の影響を受けやすい。
既存の検出方法は高いパフォーマンスを実現するが、高価なAPI呼び出しと反復的なLVLMベースの検証に大きく依存しているため、大規模またはオフラインでの使用には実用的ではない。
これらの制約に対処するため,LVLM出力の幻覚を検出する軽量でトレーニング不要なフレームワークであるCutPaste\&Findを提案する。
提案手法では,LVLM推論を必要とせずに,市販のビジュアルモジュールと言語モジュールを活用し,多段階検証を効率的に行う。
私たちのフレームワークの中核は、リッチなエンティティ属性関係と関連するイメージ表現をエンコードするビジュアルエイドの知識ベースです。
類似度スコアを改良するスケーリング係数を導入し, 地中画像とテキストのペアであっても, 最適下アライメントの問題を緩和する。
POPEやR-Benchを含むベンチマークデータセットの総合評価は、CutPaste\&Findが競合幻覚検出性能を達成し、従来の方法よりもはるかに効率的でコスト効率が高いことを示した。
関連論文リスト
- Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。
実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文 参考訳(メタデータ) (2025-04-16T14:50:25Z) - Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - REFIND at SemEval-2025 Task 3: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models [15.380441563675243]
REFIND(Retrieval-augmented Factuality Hallucination Detection)は、大規模言語モデル(LLM)出力内の幻覚スパンを検出する新しいフレームワークである。
本研究では,LLM出力の感度を定量的に評価する新しい指標であるコンテキスト感度比(CSR)を提案する。
REFINDは低リソース設定を含む9つの言語で堅牢性を示し、ベースラインモデルではかなり優れていた。
論文 参考訳(メタデータ) (2025-02-19T10:59:05Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - VaLiD: Mitigating the Hallucination of Large Vision Language Models by Visual Layer Fusion Contrastive Decoding [38.23310445372371]
LVLM(Large Vision-Language Models)はマルチモーダルタスク推論において優れた性能を示す。
textbfVisutextbfal textbfLayer Fustextbfion Contrastive textbfDecoding (VaLiD)。
論文 参考訳(メタデータ) (2024-11-24T13:42:02Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Seeing is Believing: Mitigating Hallucination in Large Vision-Language Models via CLIP-Guided Decoding [36.81476620057058]
LVLM(Large Vision-Language Models)は、物体の幻覚に影響を受けやすい。
現在のアプローチは、しばしばモデルのトークン可能性やその他の内部情報に依存する。
CLIP-Guided Decoding approach to reduce object hallucination at decoding time。
論文 参考訳(メタデータ) (2024-02-23T12:57:16Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - From CLIP to DINO: Visual Encoders Shout in Multi-modal Large Language
Models [36.41816380074965]
大規模言語モデル(MLLM)における視覚エンコーダの有効性について検討する。
以上の結果から,CLIPの浅層構造は,接地や領域理解といったきめ細かいタスクに特に有利であることがわかった。
我々は,CLIPとDINOをMergingと統合したシンプルな機能統合戦略であるCOMMを提案する。
論文 参考訳(メタデータ) (2023-10-13T02:41:55Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。