論文の概要: FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation
- arxiv url: http://arxiv.org/abs/2410.22257v2
- Date: Wed, 08 Jan 2025 02:33:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:53:46.484888
- Title: FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation
- Title(参考訳): FactBench: 言語内モデルファクチュアリティ評価のための動的ベンチマーク
- Authors: Farima Fatahi Bayat, Lechen Zhang, Sheza Munir, Lu Wang,
- Abstract要約: 実世界のユーザインタラクションにおける言語モデルの事実性を評価するパイプラインであるVERIFYを提案する。
VERIFYは既存の手法よりも人的評価と相関性が高いことを示す。
我々は、FACTBENCH上でGPT、Gemini、Llamaファミリーから広く使われているLMをベンチマークした。
- 参考スコア(独自算出の注目度): 4.773086022844023
- License:
- Abstract: The rapid adoption of language models (LMs) across diverse applications has raised concerns about their factuality, i.e., their consistency with real-world facts. We first present VERIFY (Verification and Evidence RetrIeval for FactualitY evaluation), a pipeline to evaluate LMs' factuality in real-world user interactions. VERIFY considers the verifiability of LM-generated content and categorizes content units as supported, unsupported, or undecidable based on Web-retrieved evidence. Importantly, factuality judgment by VERIFY correlates better with human evaluations than existing methods. Using VERIFY, we identify "hallucination prompts" across diverse topics, i.e., those eliciting the highest rates of incorrect (unsupported) and inconclusive (undecidable) LM responses. These prompts form FACTBENCH, a dataset of 1K prompts across 150 fine-grained topics. Our dataset captures emerging factuality challenges in real-world LM interactions and can be regularly updated with new prompts. We benchmark widely-used LMs from GPT, Gemini, and Llama families on FACTBENCH, yielding the following key findings: (i) Proprietary models exhibit better factuality, with decreased performance from Easy to Hard hallucination prompts. (ii) Llama3.1-405B-Instruct shows comparable or lower factual precision than Llama3.1-70B-Instruct across all evaluation methods due to its higher subjectivity that leads to more content labeled as undecidable. (iii) Gemini1.5-Pro shows a significantly higher refusal rate, with over-refusal in 25% of cases.
- Abstract(参考訳): 多様なアプリケーションにまたがる言語モデル(LM)の急速な採用は、現実性、すなわち現実世界の事実との整合性に対する懸念を引き起こしている。
まず,実世界のユーザインタラクションにおけるLMの事実性を評価するパイプラインであるVERIFY(Verification and Evidence RetrIeval for FactualitY Evaluation)を提案する。
VERIFYは、LM生成コンテンツの妥当性を考慮し、コンテンツユニットをWeb検索された証拠に基づいて、サポートされた、サポートされていない、あるいは決定できないものとして分類する。
重要なことは、VERIFYによる事実判断は、既存の方法よりも人間の評価と相関している。
VERIFYを用いて、様々なトピック、すなわち、不正確な(サポートされていない)と不確定な(決定不可能な)LM応答を最も多く引き起こす「幻覚プロンプト」を同定する。
これらのプロンプトは、1KのデータセットであるFACTBENCHを形成し、150のきめ細かいトピックをプロンプトする。
我々のデータセットは、実世界のLMインタラクションにおける新たな事実性の課題を捉え、新しいプロンプトで定期的に更新することができる。
我々は、FACTBENCH上でGPT、Gemini、Llamaファミリーから広く使われているLMをベンチマークし、以下の重要な知見を得た。
一 プロプライエタリなモデルは、容易な幻覚からハードな幻覚へと性能を低下させ、より良い事実性を示す。
(ii)Llama3.1-405B-インストラクトは、Llama3.1-70B-インストラクトと同等またはそれ以下である。
3) Gemini1.5-Pro は拒絶率が有意に高く,25% の症例では過剰拒絶率を示した。
関連論文リスト
- A Debate-Driven Experiment on LLM Hallucinations and Accuracy [7.821303946741665]
本研究では,大規模言語モデル(LLM)における幻覚現象について検討する。
GPT-4o-Miniモデルの複数のインスタンスは、TrathfulQAデータセットからの質問によって引き起こされた議論のような相互作用に関与している。
1つのモデルは、もっともらしいが偽の答えを生成するように故意に指示され、他のモデルは真に応答するように要求される。
論文 参考訳(メタデータ) (2024-10-25T11:41:27Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。