論文の概要: C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation
- arxiv url: http://arxiv.org/abs/2504.10167v1
- Date: Mon, 14 Apr 2025 12:21:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:55:12.674050
- Title: C-FAITH: A Chinese Fine-Grained Benchmark for Automated Hallucination Evaluation
- Title(参考訳): C-FAITH: 幻覚自動評価のための中国の細粒度ベンチマーク
- Authors: Xu Zhang, Zhifei Liu, Jiahao Wang, Huixuan Zhang, Fan Xu, Junzhe Zhang, Xiaojun Wan,
- Abstract要約: 本稿では,いくつかの知識文書に基づいて,詳細なQAデータセットを自動的に構築するエージェントフレームワークであるHaluAgentを紹介する。
本実験は,手作業で設計したルールと迅速な最適化により,生成データの品質が向上できることを実証する。
- 参考スコア(独自算出の注目度): 58.40263551616771
- License:
- Abstract: Despite the rapid advancement of large language models, they remain highly susceptible to generating hallucinations, which significantly hinders their widespread application. Hallucination research requires dynamic and fine-grained evaluation. However, most existing hallucination benchmarks (especially in Chinese language) rely on human annotations, making automatical and cost-effective hallucination evaluation challenging. To address this, we introduce HaluAgent, an agentic framework that automatically constructs fine-grained QA dataset based on some knowledge documents. Our experiments demonstrate that the manually designed rules and prompt optimization can improve the quality of generated data. Using HaluAgent, we construct C-FAITH, a Chinese QA hallucination benchmark created from 1,399 knowledge documents obtained from web scraping, totaling 60,702 entries. We comprehensively evaluate 16 mainstream LLMs with our proposed C-FAITH, providing detailed experimental results and analysis.
- Abstract(参考訳): 大きな言語モデルが急速に進歩したにもかかわらず、幻覚を発生させる可能性が高く、その適用を著しく妨げている。
幻覚の研究には動的できめ細かい評価が必要である。
しかし、既存の幻覚ベンチマーク(特に中国語)は人間のアノテーションに依存しており、自動的かつ費用対効果の高い幻覚評価を困難にしている。
そこで本研究では,いくつかの知識文書に基づいて,詳細なQAデータセットを自動的に構築するエージェントフレームワークであるHaluAgentを紹介する。
本実験は,手作業で設計したルールと迅速な最適化により,生成データの品質が向上できることを実証する。
本研究では,HluAgentを用いて,Webスクレイピングから得られた1,399個の知識文書から生成した中国語のQA幻覚ベンチマークC-FAITHを構築した。
提案したC-FAITHを用いて16のLLMを総合的に評価し,詳細な実験結果と分析を行った。
関連論文リスト
- Fine-tuning Large Language Models for Improving Factuality in Legal Question Answering [30.795942355722797]
幻覚(英: Hallucination、または誤った情報や偽造情報の生成)は、大きな言語モデルにおいて重要な課題である。
行動クローニングと新しいハードサンプル認識反復的直接選好最適化(HIPO)を統合した幻覚緩和手法を提案する。
本研究は,新たに提案された非半減期統計率など,様々な指標において顕著な改善を示すものである。
論文 参考訳(メタデータ) (2025-01-11T12:08:15Z) - ANAH-v2: Scaling Analytical Hallucination Annotation of Large Language Models [65.12177400764506]
大規模言語モデル (LLM) は、様々な領域や広範囲のアプリケーションにまたがる、長い形式の質問応答タスクにおいて幻覚を示す。
現在の幻覚検出と緩和データセットはドメインやサイズによって制限されている。
本稿では,幻覚アノテーションデータセットを同時に,段階的にスケールアップする反復的自己学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-05T17:56:38Z) - HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation [19.318217051269382]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
論文 参考訳(メタデータ) (2024-06-11T08:56:18Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - HypoTermQA: Hypothetical Terms Dataset for Benchmarking Hallucination
Tendency of LLMs [0.0]
幻覚は、大規模言語モデル(LLM)の信頼性と整合性に重大な課題をもたらす
本稿では,LLMの幻覚傾向のベンチマークと効率的な幻覚検出を組み合わせた,スケーラブルな自動フレームワークを提案する。
フレームワークはドメインに依存しないため、任意のドメインでのベンチマーク作成や評価に任意の言語モデルを使用することができる。
論文 参考訳(メタデータ) (2024-02-25T22:23:37Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Alleviating Hallucinations of Large Language Models through Induced
Hallucinations [67.35512483340837]
大規模言語モデル(LLM)は、不正確な情報や製造された情報を含む応答を生成するために観察されている。
幻覚を緩和するための単純なtextitInduce-then-Contrast Decoding (ICD) 戦略を提案する。
論文 参考訳(メタデータ) (2023-12-25T12:32:49Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。