論文の概要: FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation
- arxiv url: http://arxiv.org/abs/2305.14251v2
- Date: Wed, 11 Oct 2023 05:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 12:35:59.989925
- Title: FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation
- Title(参考訳): FActScore:ロングフォームテキスト生成におけるFactual Precisionの微粒化評価
- Authors: Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang
Wei Koh, Mohit Iyyer, Luke Zettlemoyer, Hannaneh Hajishirzi
- Abstract要約: 大規模言語モデル(LM)が生成する長文の事実性を評価することは簡単ではない。
FACTSCOREは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
- 参考スコア(独自算出の注目度): 176.56131810249602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the factuality of long-form text generated by large language
models (LMs) is non-trivial because (1) generations often contain a mixture of
supported and unsupported pieces of information, making binary judgments of
quality inadequate, and (2) human evaluation is time-consuming and costly. In
this paper, we introduce FACTSCORE, a new evaluation that breaks a generation
into a series of atomic facts and computes the percentage of atomic facts
supported by a reliable knowledge source. We conduct an extensive human
evaluation to obtain FACTSCOREs of people biographies generated by several
state-of-the-art commercial LMs -- InstructGPT, ChatGPT, and the
retrieval-augmented PerplexityAI -- and report new analysis demonstrating the
need for such a fine-grained score (e.g., ChatGPT only achieves 58%). Since
human evaluation is costly, we also introduce an automated model that estimates
FACTSCORE using retrieval and a strong language model, with less than a 2%
error rate. Finally, we use this automated metric to evaluate 6,500 generations
from a new set of 13 recent LMs that would have cost $26K if evaluated by
humans, with various findings: GPT-4 and ChatGPT are more factual than public
models, and Vicuna and Alpaca are some of the best public models. FACTSCORE is
available for public use via `pip install factscore`.
- Abstract(参考訳): 大規模言語モデル(lms)によって生成された長文の事実性の評価は、(1)世代はサポート対象とサポート対象の情報の混合を含むことが多く、品質の二元的判断が不十分であり、(2)人間評価は時間がかかり、費用がかかるため、自明ではない。
本稿では、世代を一連の原子事実に分解し、信頼できる知識ソースによって支えられる原子事実の割合を計算する新しい評価であるFACTSCOREを紹介する。
InstructGPT, ChatGPT, and the search-augmented PerplexityAI が生み出した人体バイオグラフィーのFACTSCOREを広範囲にわたる人体評価を行い, このような微粒なスコアの必要性を示す新たな分析を報告した(例: ChatGPTは58%しか達成していない)。
人的評価はコストがかかるため,検索を用いてFACTSCOREを推定する自動モデルや,2%未満のエラー率を持つ強力な言語モデルも導入する。
最後に、この自動化メトリックを使用して、最新の13のlsmから6,500世代を評価しています。これは、人間によって評価されれば26kドル(約2万2000円)かかります。
FACTSCOREは 'pip install factscore` を通じてパブリックに利用できる。
関連論文リスト
- CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Cut the CARP: Fishing for zero-shot story evaluation [0.0]
対照的なオーサリングとレビュー ペアリングは、ストーリーの優れたゼロショット評価を行うためのスケーラブルで効率的な方法です。
本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。
また,8万件以上のストーリーから得られた130万件のストーリー批判ペアからなる新たなコーパスであるStory-Critiqueデータセットを提示,分析した。
論文 参考訳(メタデータ) (2021-10-06T23:50:46Z) - The Human Evaluation Datasheet 1.0: A Template for Recording Details of
Human Evaluation Experiments in NLP [1.4467794332678539]
人間評価は、自然言語処理(NLP)における個人評価実験の詳細を記録するためのテンプレートである
人間の評価は、人間の評価の特性を十分に詳細に記録することを目的としている。
論文 参考訳(メタデータ) (2021-03-17T15:08:50Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。