論文の概要: On A Scale From 1 to 5: Quantifying Hallucination in Faithfulness Evaluation
- arxiv url: http://arxiv.org/abs/2410.12222v1
- Date: Wed, 16 Oct 2024 04:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:26.859389
- Title: On A Scale From 1 to 5: Quantifying Hallucination in Faithfulness Evaluation
- Title(参考訳): 1から5までの尺度について:信仰評価における幻覚の定量化
- Authors: Xiaonan Jing, Srinivas Billa, Danny Godbout,
- Abstract要約: 幻覚は自然言語生成(NLG)においてポピュラーな話題となっている。
本稿では,ガイド付きNLGにおける信頼度の自動評価について検討する。
我々は,ルーブリックステンプレートを開発し,大規模言語モデル(LLM)を用いて,その生成を定量的に評価した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Hallucination has been a popular topic in natural language generation (NLG). In real-world applications, unfaithful content can result in bad data quality or loss of trust from end users. Thus, it is crucial to fact-check before adopting NLG for production usage, which can be expensive if done manually. In this paper, we investigate automated faithfulness evaluation in guided NLG. We developed a rubrics template and use large language models (LLMs) to score the generation into quantifiable scales. We compared popular LLMs as well as the widely adopted natural language inference (NLI) models in scoring quality and sensitivity. In addition, we developed methods to generation synthetic unfaithful data, as well as a heuristics to quantify the percentage of hallucination. Our results on 4 travel-domain industry dataset show that GPT-4 can provide accurate judgement and explanation on whether a source and a generation are factually consistent. Furthermore, we found that tuning NLI models on synthetic data can improve performance. Lastly, we present insights on latency and cost for deploying such system.
- Abstract(参考訳): 幻覚は自然言語生成(NLG)において人気のある話題である。
現実世界のアプリケーションでは、不信なコンテンツはデータ品質の悪さやエンドユーザからの信頼を失う可能性がある。
したがって、実運用にNLGを採用する前にファクトチェックが不可欠であり、手作業で行うとコストがかかる可能性がある。
本稿では,ガイド付きNLGにおける信頼度の自動評価について検討する。
我々は,ルーブリックステンプレートを開発し,大規模言語モデル(LLM)を用いて,その生成を定量的に評価した。
我々は、人気のあるLLMと広く採用されている自然言語推論(NLI)モデルを比較して、品質と感度を評価した。
さらに, 合成不信データを生成する方法や, 幻覚率を定量化するためのヒューリスティックスを開発した。
その結果, GPT-4は, 情報源と世代が実際に一致しているかどうかを正確に判断し, 説明できることがわかった。
さらに,合成データに対するNLIモデルのチューニングにより,性能が向上することが判明した。
最後に、そのようなシステムをデプロイする際のレイテンシとコストについて考察する。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - UHGEval: Benchmarking the Hallucination of Chinese Large Language Models via Unconstrained Generation [18.22773343923806]
大規模言語モデル (LLM) は、現代の自然言語処理において重要な貢献者となっている。
LLMは幻覚テキストをしばしば生成し、その実用性を専門的な文脈で実現している。
最小限の制約で生成した出力をコンパイルするアンコントラスト型幻覚生成評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2023-11-26T13:42:56Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。
GPT-3.5でさえ、実際の出力は25%以下である。
これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文 参考訳(メタデータ) (2023-10-23T04:39:01Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Unified Detoxifying and Debiasing in Language Generation via
Inference-time Adaptive Optimization [32.50246008433889]
事前学習された言語モデル (PLM) は、かなり流動的なテキストを生成する能力により、様々な自然言語生成(NLG)タスクで繁栄している。
これらのモデルは、一般的に有害な言語や社会的偏見である訓練コーパスにおいて有害な内容を捕捉し、再現することが観察され、深刻な道徳的問題を提起する。
我々は,この2つの問題を出力空間の整合性として共同で定式化する UDDIA と呼ばれるデトキシ化とデバイアス化の枠組みを初めて提案する。
論文 参考訳(メタデータ) (2022-10-10T08:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。