論文の概要: Measuring and Reducing LLM Hallucination without Gold-Standard Answers
via Expertise-Weighting
- arxiv url: http://arxiv.org/abs/2402.10412v1
- Date: Fri, 16 Feb 2024 02:32:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 17:41:31.151458
- Title: Measuring and Reducing LLM Hallucination without Gold-Standard Answers
via Expertise-Weighting
- Title(参考訳): エキスパートウェイト法によるゴールドスタンダードアンサーによるLCM幻覚の計測と低減
- Authors: Jiaheng Wei, Yuanshun Yao, Jean-Francois Ton, Hongyi Guo, Andrew
Estornell, Yang Liu
- Abstract要約: 幻覚はLLMの信頼性と信頼性に対する大きな脅威である。
既存の幻覚測定基準は、ゴールド標準の答えを持つベンチマークデータセットを持つ必要がある。
FEWLは、ゴールドスタンダードの回答が欠落しているシナリオ用に特別に設計された最初の幻覚測度である。
- 参考スコア(独自算出の注目度): 26.781000424793902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM hallucination, i.e. generating factually incorrect yet seemingly
convincing answers, is currently a major threat to the trustworthiness and
reliability of LLMs. The first step towards solving this complicated problem is
to measure it. However, existing hallucination metrics require to have a
benchmark dataset with gold-standard answers, i.e. "best" or "correct" answers
written by humans. Such requirement makes hallucination measurement costly and
prone to human errors. In this work, we propose Factualness Evaluations via
Weighting LLMs (FEWL), the first hallucination metric that is specifically
designed for the scenario when gold-standard answers are absent. FEWL leverages
the answers from off-the-shelf LLMs that serve as a proxy of gold-standard
answers. The key challenge is how to quantify the expertise of reference LLMs
resourcefully. We show FEWL has certain theoretical guarantees and demonstrate
empirically it gives more accurate hallucination measures than naively using
reference LLMs. We also show how to leverage FEWL to reduce hallucination
through both in-context learning and supervised finetuning. Last, we build a
large-scale benchmark dataset to facilitate LLM hallucination research.
- Abstract(参考訳): LLM幻覚(英: LLM Hallucination)とは、LLMの信頼性と信頼性に対する大きな脅威である。
この複雑な問題を解決するための最初のステップは、それを測定することです。
しかしながら、既存の幻覚のメトリクスは、金の標準回答、すなわち人間が書いた「最良の」あるいは「正しい」回答を含むベンチマークデータセットを持つ必要がある。
このような要件により幻覚の測定はコストがかかり、ヒューマンエラーを起こしやすい。
本研究は,金標準解が欠落したシナリオに特化して設計された最初の幻覚尺度であるFactualness Evaluations via Weighting LLMs (FEWL)を提案する。
FEWL は金標準回答のプロキシとして機能する既製の LLM の回答を利用する。
鍵となる課題は、LLMの専門知識を資源的に定量化する方法である。
FEWLにはある程度の理論的保証があり、基準LDMよりも正確な幻覚対策を経験的に示している。
また、FEWLを利用して、コンテキスト内学習と教師付き微調整の両方を通して幻覚を減らす方法を示す。
最後に,LLM幻覚研究を促進するための大規模ベンチマークデータセットを構築した。
関連論文リスト
- FLAME: Factuality-Aware Alignment for Large Language Models [86.76336610282401]
従来のアライメントプロセスでは,大規模言語モデル(LLM)の事実精度が向上しない。
両段階の幻覚につながる要因は,教師付き微調整(SFT)と強化学習(RL)である。
直接選好最適化により,事実認識型SFTと事実認識型RLで構成された事実認識型アライメントを提案する。
論文 参考訳(メタデータ) (2024-05-02T17:54:54Z) - "Sorry, Come Again?" Prompting -- Enhancing Comprehension and Diminishing Hallucination with [PAUSE]-injected Optimal Paraphrasing [10.20632187568563]
幻覚は現代大言語モデル(LLM)の最も脆弱な側面として現れてきた。
本稿では,LCMの幻覚を避けることを目的としたSCAプロンプトについて紹介する。
本稿では,21のLLMに対するプロンプトの形式性,可読性,具体性について,言語的ニュアンスを詳細に分析する。
与えられたプロンプトの最も理解しやすいパラフレーズを識別する最適なパラフレーズ化手法を提案する。
論文 参考訳(メタデータ) (2024-03-27T19:45:09Z) - When Do LLMs Need Retrieval Augmentation? Mitigating LLMs'
Overconfidence Helps Retrieval Augmentation [72.11942617502956]
大規模言語モデル(LLM)は、特定の知識を持っていないことを知るのが困難であることが判明した。
Retrieval Augmentation (RA)はLLMの幻覚を緩和するために広く研究されている。
本稿では,LLMの知識境界に対する認識を高めるためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2024-02-18T04:57:19Z) - Do LLMs Know about Hallucination? An Empirical Investigation of LLM's
Hidden States [19.343629282494774]
大きな言語モデル(LLM)は、現実ではない答えを補うことができ、幻覚として知られている。
本研究の目的は, LLM が幻覚をどの程度認識しているか, どのように, どの程度の程度で確認することである。
論文 参考訳(メタデータ) (2024-02-15T06:14:55Z) - The Dawn After the Dark: An Empirical Study on Factuality Hallucination
in Large Language Models [134.6697160940223]
幻覚は、大きな言語モデルの信頼できるデプロイには大きな課題となります。
幻覚(検出)の検出方法、LLMが幻覚(ソース)をなぜ検出するのか、そしてそれを緩和するために何ができるか、という3つの重要な疑問がよく研究されるべきである。
本研究は, 幻覚検出, 発生源, 緩和の3つの側面に着目した, LLM幻覚の系統的研究である。
論文 参考訳(メタデータ) (2024-01-06T12:40:45Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - AMBER: An LLM-free Multi-dimensional Benchmark for MLLMs Hallucination
Evaluation [58.19101663976327]
マルチモーダル大規模言語モデル(MLLM)は幻覚の重要な課題に直面する。
MLLMの幻覚を評価することは、モデルの改善と実践的なアプリケーション展開においてますます重要になっている。
生成タスクと識別タスクの両方を評価するために, LLMフリーな多次元ベンチマークAMBERを提案する。
論文 参考訳(メタデータ) (2023-11-13T15:25:42Z) - LLM Lies: Hallucinations are not Bugs, but Features as Adversarial
Examples [15.528923770249774]
ランダムなトークンからなるナンセンスなプロンプトは、幻覚に反応するLLMも引き起こせることを示す。
この現象は、幻覚が敵の例の別の見方であるかもしれないことを再考させる。
本研究では,幻覚攻撃として自動幻覚誘発法を対角的に定式化する。
論文 参考訳(メタデータ) (2023-10-02T17:01:56Z) - Halo: Estimation and Reduction of Hallucinations in Open-Source Weak
Large Language Models [11.497989461290793]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
パラメータが少ないオープンソースのLCMは、より大きなものに比べて深刻な幻覚に悩まされることが多い。
本稿では,より弱いオープンソース LLM の代表であるBLOOM 7B における幻覚の計測と低減に焦点をあてる。
論文 参考訳(メタデータ) (2023-08-22T20:12:49Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。