論文の概要: ANAH: Analytical Annotation of Hallucinations in Large Language Models
- arxiv url: http://arxiv.org/abs/2405.20315v1
- Date: Thu, 30 May 2024 17:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:00:01.260745
- Title: ANAH: Analytical Annotation of Hallucinations in Large Language Models
- Title(参考訳): ANAH:大規模言語モデルにおける幻覚の分析的アノテーション
- Authors: Ziwei Ji, Yuzhe Gu, Wenwei Zhang, Chengqi Lyu, Dahua Lin, Kai Chen,
- Abstract要約: 我々は、大言語モデルにおける幻覚の@textbfAN$alytical $textbfA$nnotationを提供するデータセットである$textbfANAH$を提示する。
ANAHは、700以上のトピックをカバーする4.3k LLM応答のための12kの文レベルのアノテーションで構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が解答に蓄積されることを定量的に確認し, ANAHを用いて幻覚アノテーションを訓練し, 評価する。
- 参考スコア(独自算出の注目度): 65.12177400764506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reducing the `$\textit{hallucination}$' problem of Large Language Models (LLMs) is crucial for their wide applications. A comprehensive and fine-grained measurement of the hallucination is the first key step for the governance of this issue but is under-explored in the community. Thus, we present $\textbf{ANAH}$, a bilingual dataset that offers $\textbf{AN}$alytical $\textbf{A}$nnotation of $\textbf{H}$allucinations in LLMs within Generative Question Answering. Each answer sentence in our dataset undergoes rigorous annotation, involving the retrieval of a reference fragment, the judgment of the hallucination type, and the correction of hallucinated content. ANAH consists of ~12k sentence-level annotations for ~4.3k LLM responses covering over 700 topics, constructed by a human-in-the-loop pipeline. Thanks to the fine granularity of the hallucination annotations, we can quantitatively confirm that the hallucinations of LLMs progressively accumulate in the answer and use ANAH to train and evaluate hallucination annotators. We conduct extensive experiments on studying generative and discriminative annotators and show that, although current open-source LLMs have difficulties in fine-grained hallucination annotation, the generative annotator trained with ANAH can surpass all open-source LLMs and GPT-3.5, obtain performance competitive with GPT-4, and exhibits better generalization ability on unseen questions.
- Abstract(参考訳): LLM(Large Language Models)の ‘$\textit{hallucination}$' 問題を減らすことは、幅広いアプリケーションにとって不可欠である。
幻覚の包括的かつきめ細かい測定は、この問題のガバナンスのための最初の重要なステップであるが、コミュニティでは過小評価されている。
したがって、生成質問回答の LLM で $\textbf{AN}$alytical $\textbf{A}$nnotation of $\textbf{H}$allucinations を提供するバイリンガルデータセットである $\textbf{ANAH}$ を提示する。
本データセットの各回答文は,参照フラグメントの検索,幻覚型判定,幻覚内容の修正など,厳密なアノテーションを施す。
ANAHは700以上のトピックをカバーする約12kの文レベルアノテーションと約4.3kのLLM応答で構成されている。
幻覚アノテーションの微粒化により, LLMの幻覚が徐々に解答に蓄積し, ANAHを用いて幻覚アノテーションを訓練し, 評価することが定量的に確認できる。
我々は生成的および識別的アノテータの研究について広範囲にわたる実験を行い、現在のオープンソースLLMは細粒度の幻覚アノテーションが難しいが、ANAHで訓練された生成アノテータはすべてのオープンソースLLMとGPT-3.5を越え、GPT-4と競合する性能を得ることができ、未確認の質問に対してより優れた一般化能力を示すことを示した。
関連論文リスト
- ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - Data-augmented phrase-level alignment for mitigating object hallucination [52.43197107069751]
MLLM(Multimodal Large Language Models)はしばしば幻覚と呼ばれる事実的不正確な情報を生成する。
そこで,本研究では,MLLMの命令調整による幻覚の緩和に応用可能な新しい損失であるData-augmented Phrase-level Alignment(DPA)を提案する。
論文 参考訳(メタデータ) (2024-05-28T23:36:00Z) - Hallucination Diversity-Aware Active Learning for Text Summarization [46.00645048690819]
LLM(Large Language Models)は、幻覚出力を生成するための妥当性を示す。
幻覚を緩和するための既存の方法は、通常、LLM出力の幻覚を識別し修正するために、人為的なアノテーションを必要とする。
LLM幻覚を緩和する最初のアクティブラーニングフレームワークを提案し,必要な幻覚アノテーションのコストを削減した。
論文 参考訳(メタデータ) (2024-04-02T02:30:27Z) - HaluEval-Wild: Evaluating Hallucinations of Language Models in the Wild [41.86776426516293]
幻覚は、臨界領域における大きな言語モデル(LLM)の信頼性に重大な課題をもたらす。
野生におけるLSM幻覚を評価するために特別に設計された最初のベンチマークであるHaluEval-Wildを紹介する。
論文 参考訳(メタデータ) (2024-03-07T08:25:46Z) - DiaHalu: A Dialogue-level Hallucination Evaluation Benchmark for Large Language Models [26.289847386286446]
本稿では,対話レベルの幻覚評価ベンチマークDiaHaluを提案する。
収集したトピックをシステムプロンプトに統合し、2つのChatGPT3.5間の対話を促進する。
人間の言語規則に従わない内容を手動で修正し、LLMを再生させ、人間と機械の相互作用のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-03-01T15:38:55Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。