論文の概要: FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation
- arxiv url: http://arxiv.org/abs/2410.22257v1
- Date: Tue, 29 Oct 2024 17:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:54.585619
- Title: FactBench: A Dynamic Benchmark for In-the-Wild Language Model Factuality Evaluation
- Title(参考訳): FactBench: 言語内モデルファクチュアリティ評価のための動的ベンチマーク
- Authors: Farima Fatahi Bayat, Lechen Zhang, Sheza Munir, Lu Wang,
- Abstract要約: 実世界のユーザインタラクションにおけるLMの事実性を評価するパイプラインであるVERIFYを提案する。
検証は、LM生成したコンテンツの妥当性を考慮し、コンテンツユニットをサポート、サポート、決定不能と分類する。
我々は、FactBench上でGPT、Gemini、Llama3.1ファミリーから広く使われているLMをベンチマークした。
- 参考スコア(独自算出の注目度): 4.773086022844023
- License:
- Abstract: Language models (LMs) are widely used by an increasing number of users, underscoring the challenge of maintaining factuality across a broad range of topics. We first present VERIFY (Verification and Evidence RetrIeval for FactualitY evaluation), a pipeline to evaluate LMs' factuality in real-world user interactions. VERIFY considers the verifiability of LM-generated content and categorizes content units as supported, unsupported, or undecidable based on the retrieved evidence from the Web. Importantly, factuality judgment by VERIFY correlates better with human evaluations than existing methods. Using VERIFY, we identify "hallucination prompts" across diverse topics, i.e., those eliciting the highest rates of incorrect and inconclusive LM responses. These prompts form FactBench, a dataset of 1K prompts across 150 fine-grained topics. Our dataset captures emerging factuality challenges in real-world LM interactions and can be regularly updated with new prompts. We benchmark widely-used LMs from GPT, Gemini, and Llama3.1 family on FactBench, yielding the following key findings: (i) Proprietary models exhibit better factuality, with performance declining from Easy to Hard hallucination prompts. (ii) Llama3.1-405B-Instruct shows comparable or lower factual accuracy than Llama3.1-70B-Instruct across all evaluation methods due to its higher subjectivity that leads to more content labeled as undecidable. (iii) Gemini1.5-Pro shows a significantly higher refusal rate, with over-refusal in 25% of cases. Our code and data are publicly available at https://huggingface.co/spaces/launch/factbench.
- Abstract(参考訳): 言語モデル(LM)は、多くのユーザーが広く利用しており、幅広いトピックにおいて事実性を維持することの難しさを強調している。
まず,実世界のユーザインタラクションにおけるLMの事実性を評価するパイプラインであるVERIFY(Verification and Evidence RetrIeval for FactualitY Evaluation)を提案する。
VERIFYは、LM生成コンテンツの妥当性を考慮し、コンテンツユニットをWebから取得した証拠に基づいて、サポート、サポート、または決定不能に分類する。
重要なことは、VERIFYによる事実判断は、既存の方法よりも人間の評価と相関している。
VERIFYを用いて、様々なトピック、すなわち、不正確かつ不確定なLM応答を最も多く引き起こす「ハロシン化プロンプト」を同定する。
これらのプロンプトは、1KのデータセットであるFactBenchを形成し、150のきめ細かいトピックをプロンプトする。
我々のデータセットは、実世界のLMインタラクションにおける新たな事実性の課題を捉え、新しいプロンプトで定期的に更新することができる。
我々は、FactBench上でGPT、Gemini、Llama3.1ファミリーから広く使われているLMをベンチマークし、以下の重要な知見を得た。
(i)プロプライエタリなモデルは、より優れた事実性を示し、より容易な幻覚からハードな幻覚へとパフォーマンスが低下する。
(ii)Llama3.1-405B-インストラクトは、Llama3.1-70B-インストラクトよりも高い主観性により、決定不能なコンテンツが多いため、すべての評価方法において同等または低い事実精度を示す。
3) Gemini1.5-Pro は拒絶率が有意に高く,25% の症例では過剰拒絶率を示した。
私たちのコードとデータはhttps://huggingface.co/spaces/ launch/factbench.comで公開されています。
関連論文リスト
- Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚
実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。
3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Belief Revision: The Adaptability of Large Language Models Reasoning [63.0281286287648]
本稿では,LMの信念修正能力をテストするための新しいデータセットであるBelief-Rを紹介する。
このタスクは、人間が事前の推論を抑える方法にインスパイアされ、新しく提案されたデルタ推論フレームワーク内のLMを評価する。
様々なプロンプト戦略にまたがる$sim$30 LMを評価した結果,LMは一般的に,新たな情報に反応して信念を適切に修正するのに苦慮していることがわかった。
論文 参考訳(メタデータ) (2024-06-28T09:09:36Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。
実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。
300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文 参考訳(メタデータ) (2024-02-23T04:23:33Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - Generating Benchmarks for Factuality Evaluation of Language Models [61.69950787311278]
FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
その結果, (i) ベンチマークスコアはモデルサイズに応じて増加し, LMが検索によって拡張されたときに向上する; (ii) ベンチマークスコアとパープレキシティは必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合, 後者はオープンエンド世代における事実性を反映する。
論文 参考訳(メタデータ) (2023-07-13T17:14:38Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。