Fugu-MT 論文翻訳(概要): Reference-free Hallucination Detection for Large Vision-Language Models

論文の概要: Reference-free Hallucination Detection for Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2408.05767v1
Date: Sun, 11 Aug 2024 13:17:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-13 15:37:52.229268
Title: Reference-free Hallucination Detection for Large Vision-Language Models
Title（参考訳）: 大規模視線モデルに対する基準自由幻覚検出
Authors: Qing Li, Chenyang Lyu, Jiahui Geng, Derui Zhu, Maxim Panov, Fakhri Karray,
Abstract要約: 大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げている。 LVLMは、言語理解、質問応答、視覚入力の会話において優れた能力を示す。彼らは幻覚を起こす傾向がある。 LVLMの幻覚を評価するためにいくつかの手法が提案されているが、そのほとんどは参照ベースであり、外部ツールに依存している。
参考スコア（独自算出の注目度）: 19.36348897433261
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large vision-language models (LVLMs) have made significant progress in recent years. While LVLMs exhibit excellent ability in language understanding, question answering, and conversations of visual inputs, they are prone to producing hallucinations. While several methods are proposed to evaluate the hallucinations in LVLMs, most are reference-based and depend on external tools, which complicates their practical application. To assess the viability of alternative methods, it is critical to understand whether the reference-free approaches, which do not rely on any external tools, can efficiently detect hallucinations. Therefore, we initiate an exploratory study to demonstrate the effectiveness of different reference-free solutions in detecting hallucinations in LVLMs. In particular, we conduct an extensive study on three kinds of techniques: uncertainty-based, consistency-based, and supervised uncertainty quantification methods on four representative LVLMs across two different tasks. The empirical results show that the reference-free approaches are capable of effectively detecting non-factual responses in LVLMs, with the supervised uncertainty quantification method outperforming the others, achieving the best performance across different settings.
Abstract（参考訳）: 大規模視覚言語モデル(LVLM)は近年大きな進歩を遂げている。 LVLMは、言語理解、質問応答、視覚入力の会話において優れた能力を示すが、幻覚を生み出す傾向にある。 LVLMの幻覚を評価するためにいくつかの手法が提案されているが、そのほとんどは参照ベースであり、その実際的な応用を複雑にする外部ツールに依存している。代替手法の有効性を評価するためには,外部ツールに依存しない参照フリーアプローチが幻覚を効果的に検出できるかどうかを理解することが重要である。そこで本研究では,LVLMの幻覚検出における参照不要解の有効性を明らかにするために,探索的研究を開始した。特に、不確実性ベース、一貫性ベース、および2つの異なるタスクにまたがる4つの代表的なLVLMに対する教師付き不確実性定量化手法の3種類の技術について広範な研究を行う。実験結果から,LVLMの非実効応答を効果的に検出可能な基準フリー手法が得られた。

関連論文リスト

Visual hallucination detection in large vision-language models via evidential conflict [24.465497252040294]
Dempster-Shafer理論(DST)に基づく不確実性推定によるLVLMの視覚幻覚検出法そこで本研究では,LVLMの視覚幻覚検出手法として,DST(Dempster-Shafer theory)を用いた第1次視覚幻覚検出法を提案する。
論文参考訳（メタデータ） (2025-06-24T11:03:10Z)
Efficient Contrastive Decoding with Probabilistic Hallucination Detection - Mitigating Hallucinations in Large Vision Language Models - [1.2499537119440245]
効率的なコントラストデコーディング(ECD)は、確率的幻覚検出を利用して、推定時に出力分布を文脈的に正確な解へとシフトする単純な方法である。実験の結果,LCDは幻覚を効果的に軽減し,LVLMベンチマークの性能や計算時間に対して最先端の手法より優れることがわかった。
論文参考訳（メタデータ） (2025-04-16T14:50:25Z)
Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文参考訳（メタデータ） (2025-03-11T11:52:37Z)
HuDEx: Integrating Hallucination Detection and Explainability for Enhancing the Reliability of LLM responses [0.12499537119440242]
本稿では,HuDExと命名された幻覚検出モデルについて説明する。提案モデルでは,検出を説明と統合する新たなアプローチを提供し,ユーザとLLM自体がエラーを理解し,低減することができる。
論文参考訳（メタデータ） (2025-02-12T04:17:02Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)
VL-Uncertainty: Detecting Hallucination in Large Vision-Language Model via Uncertainty Estimation [18.873512856021357]
本稿では,大規模な視覚言語モデルにおける幻覚を検出するための,最初の不確実性に基づくフレームワークであるVL-Uncertaintyを紹介する。意味論的に等価だが摂動的プロンプト間の予測分散を分析して不確実性を測定する。 LVLMは信頼性が高く、意味論的に等価なクエリに対して一貫した応答を提供する。しかし、不確実な場合には、目標LVLMの応答はよりランダムになる。
論文参考訳（メタデータ） (2024-11-18T04:06:04Z)
LLM Hallucination Reasoning with Zero-shot Knowledge Test [10.306443936136425]
我々は,LLM生成テキストを3つのカテゴリの1つに分類する新たなタスクであるHalucination Reasoningを導入する。新たなデータセットを用いた実験により,幻覚推論における本手法の有効性が示された。
論文参考訳（メタデータ） (2024-11-14T18:55:26Z)
Alleviating Hallucination in Large Vision-Language Models with Active Retrieval Augmentation [21.31915988262898]
本稿では,幻覚に対処するための新しいフレームワークであるActive Retrieval-Augmented Large Vision-Language Model(ARA)を紹介する。実験により, 適応した検索機構とタイミングを加味することにより, 幻覚の問題を効果的に緩和できることが示唆された。
論文参考訳（メタデータ） (2024-08-01T13:38:58Z)
KnowHalu: Hallucination Detection via Multi-Form Knowledge Based Factual Checking [55.2155025063668]
KnowHaluは、大規模言語モデル(LLM)によって生成されたテキスト中の幻覚を検出する新しいアプローチであるステップワイズ推論、マルチフォームクエリ、ファクトチェックのためのマルチフォーム知識、フュージョンベースの検出メカニズムを使用する。評価の結果,KnowHaluは様々なタスクにおける幻覚検出においてSOTAベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2024-04-03T02:52:07Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。 LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。 LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文参考訳（メタデータ） (2023-11-22T08:39:17Z)
A New Benchmark and Reverse Validation Method for Passage-level Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文参考訳（メタデータ） (2023-10-10T10:14:59Z)
Zero-Resource Hallucination Prevention for Large Language Models [45.4155729393135]
ハロシン化(Hallucination)とは、大規模言語モデル(LLM)が事実的に不正確な情報を生成する事例を指す。本稿では,SELF-FAMILIARITYと呼ばれる,入力命令に含まれる概念に対するモデルの親しみ度を評価する新しい自己評価手法を提案する。 4つの異なる大言語モデルでSELF-FAMILIARITYを検証し、既存の手法と比較して一貫して優れた性能を示す。
論文参考訳（メタデータ） (2023-09-06T01:57:36Z)
Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。 LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文参考訳（メタデータ） (2023-05-17T16:34:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。