論文の概要: Generating Benchmarks for Factuality Evaluation of Language Models
- arxiv url: http://arxiv.org/abs/2307.06908v1
- Date: Thu, 13 Jul 2023 17:14:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 13:48:09.115396
- Title: Generating Benchmarks for Factuality Evaluation of Language Models
- Title(参考訳): 言語モデルのファクチュアリティ評価のためのベンチマークの作成
- Authors: Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan
Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham
- Abstract要約: FACTOR: Factual Assessment via Corpus Transformation, a scalable approach for LM factuality。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
i) ベンチマークスコアがモデルサイズに比例して増加し,LMが検索によって拡張された場合には改善される; (ii) ベンチマークスコアはパープレキシティと相関するが,2つの指標は必ずしもモデルランキングに一致しない; (iii) パープレキシティとベンチマークスコアが一致しない場合には,後者の方がオープンな事実性を反映する。
- 参考スコア(独自算出の注目度): 53.615272895860635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Before deploying a language model (LM) within a given domain, it is important
to measure its tendency to generate factually incorrect information in that
domain. Existing factual generation evaluation methods focus on facts sampled
from the LM itself, and thus do not control the set of evaluated facts and
might under-represent rare and unlikely facts. We propose FACTOR: Factual
Assessment via Corpus TransfORmation, a scalable approach for evaluating LM
factuality. FACTOR automatically transforms a factual corpus of interest into a
benchmark evaluating an LM's propensity to generate true facts from the corpus
vs. similar but incorrect statements. We use our framework to create two
benchmarks: Wiki-FACTOR and News-FACTOR. We show that: (i) our benchmark scores
increase with model size and improve when the LM is augmented with retrieval;
(ii) benchmark score correlates with perplexity, but the two metrics do not
always agree on model ranking; and (iii) when perplexity and benchmark score
disagree, the latter better reflects factuality in open-ended generation, as
measured by human annotators. We make our data and code publicly available in
https://github.com/AI21Labs/factor.
- Abstract(参考訳): 言語モデル(LM)を特定のドメインにデプロイする前に、そのドメインで事実的に誤った情報を生成する傾向を測定することが重要である。
既存の事実生成評価手法は、lm自体からサンプリングされた事実に焦点を当てているため、評価された事実の集合を制御せず、稀であり得ない事実を過小表現する可能性がある。
本稿では,lmの事実性を評価するためのスケーラブルな手法であるコーパス変換による事実評価を提案する。
FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。
フレームワークを使用して、Wiki-FACTORとNews-FACTORの2つのベンチマークを作成します。
ご覧の通りです
(i)我々のベンチマークスコアはモデルサイズによって増加し、LMが検索で拡張されたときに改善される。
(ii)ベンチマークスコアは難易度と相関するが、2つの指標は必ずしもモデルランキングに一致しない。
(iii) パープレキシティとベンチマークスコアが一致しない場合、後者は、人間の注釈によって測定されるように、開放された世代の事実性をよりよく反映する。
私たちはデータとコードをhttps://github.com/AI21Labs/factorで公開しています。
関連論文リスト
- Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers [121.53749383203792]
本稿では,大規模言語モデル (LLM) 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。
オープンドメインの文書レベルの事実性ベンチマークを,クレーム,文,文書の3段階の粒度で構築する。
予備実験によると、FacTool、FactScore、Perplexityは虚偽の主張を識別するのに苦労している。
論文 参考訳(メタデータ) (2023-11-15T14:41:57Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。