論文の概要: Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus
- arxiv url: http://arxiv.org/abs/2311.13230v1
- Date: Wed, 22 Nov 2023 08:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 15:58:14.690629
- Title: Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus
- Title(参考訳): より強い焦点による不確かさに基づく幻覚検出の強化
- Authors: Tianhang Zhang, Lin Qiu, Qipeng Guo, Cheng Deng, Yue Zhang, Zheng
Zhang, Chenghu Zhou, Xinbing Wang and Luoyi Fu
- Abstract要約: 大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
- 参考スコア(独自算出の注目度): 99.33091772494751
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have gained significant popularity for their
impressive performance across diverse fields. However, LLMs are prone to
hallucinate untruthful or nonsensical outputs that fail to meet user
expectations in many real-world applications. Existing works for detecting
hallucinations in LLMs either rely on external knowledge for reference
retrieval or require sampling multiple responses from the LLM for consistency
verification, making these methods costly and inefficient. In this paper, we
propose a novel reference-free, uncertainty-based method for detecting
hallucinations in LLMs. Our approach imitates human focus in factuality
checking from three aspects: 1) focus on the most informative and important
keywords in the given text; 2) focus on the unreliable tokens in historical
context which may lead to a cascade of hallucinations; and 3) focus on the
token properties such as token type and token frequency. Experimental results
on relevant datasets demonstrate the effectiveness of our proposed method,
which achieves state-of-the-art performance across all the evaluation metrics
and eliminates the need for additional information.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
しかし、LLMは現実の多くのアプリケーションにおいてユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMの幻覚を検出するための既存の作業は、参照検索のための外部知識に依存するか、一貫性検証のためにLLMから複数の応答をサンプリングする必要がある。
本稿では, LLMにおける幻覚検出のための基準のない, 不確実性に基づく新しい手法を提案する。
私たちのアプローチは,3つの側面から現実性チェックにおける人間の焦点を模倣する。
1) 所定のテキスト中の最も有益で重要なキーワードに注目すること。
2)幻覚のカスケードにつながる可能性がある歴史的文脈における信頼できないトークンに注目し,
3)トークンタイプやトークン頻度といったトークンプロパティに注目します。
提案手法の有効性を検証し,提案手法の有効性を検証し,すべての評価指標の最先端性能を達成し,追加情報の必要性を排除した。
関連論文リスト
- Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - INSIDE: LLMs' Internal States Retain the Power of Hallucination
Detection [41.23176896032034]
本稿では,textbfinternal textbfStates内に保持される密接な意味情報について,HoluctextbfInation textbfDEtectionについて検討する。
応答の自己整合性をよりよく評価するために、単純で効果的な textbfEigenScore メトリクスが提案されている。
内部状態における極端なアクティベーションを阻害するために,テスト時間特徴クリッピング手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T06:23:12Z) - Knowledge Verification to Nip Hallucination in the Bud [73.95113631534635]
本研究では、アライメントデータに存在する外部知識と基礎LPM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。
本稿では,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる新しい手法を提案する。
6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。
論文 参考訳(メタデータ) (2024-01-19T15:39:49Z) - A Comprehensive Survey of Hallucination Mitigation Techniques in Large
Language Models [7.705767540805267]
大きな言語モデル(LLM)は、人間のようなテキストを書く能力の進歩を続けている。
重要な課題は、事実に見えるが根拠のないコンテンツを生み出すことを幻覚させる傾向にある。
本稿では,LLMにおける幻覚を緩和するために開発された32以上の技術について調査する。
論文 参考訳(メタデータ) (2024-01-02T17:56:30Z) - OPERA: Alleviating Hallucination in Multi-Modal Large Language Models
via Over-Trust Penalty and Retrospection-Allocation [124.9008419182485]
OPERA(Over-trust PenaltyとRetrospection-Allocation戦略に基づく新しいMLLM復号法)を提案する。
私たちのアプローチは、ほとんどの幻覚は自己注意行列の知識集約パターンと密接に結びついているという興味深い観察から始まります。
この観察に基づいて、OPERAは、ビーム探索復号時にモデルロジットにペナルティ項を導入し、オーバートラスト問題を緩和する。
論文 参考訳(メタデータ) (2023-11-29T18:57:07Z) - Chainpoll: A high efficacy method for LLM hallucination detection [0.0]
そこで我々はChainPollという幻覚検出手法を紹介した。
我々はまた、最近の研究から幻覚検出指標を評価するためのベンチマークデータセットの洗練されたコレクションであるRealHallも公開した。
論文 参考訳(メタデータ) (2023-10-22T14:45:14Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [52.513957834345746]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A New Benchmark and Reverse Validation Method for Passage-level
Hallucination Detection [63.56136319976554]
大きな言語モデル(LLM)は幻覚を発生させ、ミッションクリティカルなタスクにデプロイすると大きなダメージを与える可能性がある。
本稿では,逆検証に基づく自己チェック手法を提案し,ゼロリソース方式で事実誤りを自動的に検出する。
提案手法と既存のゼロリソース検出手法を2つのデータセット上で実証的に評価した。
論文 参考訳(メタデータ) (2023-10-10T10:14:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。