論文の概要: FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation
- arxiv url: http://arxiv.org/abs/2305.14251v1
- Date: Tue, 23 May 2023 17:06:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 14:26:30.696307
- Title: FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long
Form Text Generation
- Title(参考訳): FActScore:ロングフォームテキスト生成におけるFactual Precisionの微粒化評価
- Authors: Sewon Min, Kalpesh Krishna, Xinxi Lyu, Mike Lewis, Wen-tau Yih, Pang
Wei Koh, Mohit Iyyer, Luke Zettlemoyer, Hannaneh Hajishirzi
- Abstract要約: FActScoreは、世代を一連の原子事実に分解し、信頼できる知識ソースによって支持される原子事実の割合を計算する新しい評価手法である。
我々は、最先端の商用LMが生み出した人々のFActScoreを得るために、広範囲にわたる人的評価を行う。
また、検索と強力な言語モデルを用いてFActScoreを2%未満のエラー率で推定する自動モデルも導入する。
- 参考スコア(独自算出の注目度): 130.35605730794833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating the factuality of long-form text generated by large language
models (LMs) is non-trivial because (1) generations often contain a mixture of
supported and unsupported pieces of information, making binary judgments of
quality inadequate, and (2) human evaluation is time-consuming and costly. In
this paper, we introduce FActScore (Factual precision in Atomicity Score), a
new evaluation that breaks a generation into a series of atomic facts and
computes the percentage of atomic facts supported by a reliable knowledge
source. We conduct an extensive human evaluation to obtain FActScores of people
biographies generated by several state-of-the-art commercial LMs --
InstructGPT, ChatGPT, and the retrieval-augmented PerplexityAI -- and report
new analysis demonstrating the need for such a fine-grained score (e.g.,
ChatGPT only achieves 58%). Since human evaluation is costly, we also introduce
an automated model that estimates FActScore, using retrieval and a strong
language model, with less than a 2% error rate. Finally, we use this automated
metric to evaluate 6,500 generations from a new set of 13 recent LMs that would
have cost $26K if evaluated by humans, with various findings: GPT-4 and ChatGPT
are more factual than public models, and Vicuna and Alpaca are some of the best
public models.
- Abstract(参考訳): 大規模言語モデル(lms)によって生成された長文の事実性の評価は、(1)世代はサポート対象とサポート対象の情報の混合を含むことが多く、品質の二元的判断が不十分であり、(2)人間評価は時間がかかり、費用がかかるため、自明ではない。
本稿では, FActScore (Factual precision in Atomicity Score) を紹介する。これは, 世代を一連の原子事実に分解し, 信頼性のある知識源が支持する原子事実の割合を計算する新しい評価法である。
我々は,最先端の商業用LM (InstructGPT, ChatGPT, and the retrieve-augmented PerplexityAI) が生み出す人々のFActScoreを広範囲に評価し,このような微細なスコアの必要性を示す新たな分析を報告する(例: ChatGPTは58%しか達成できない)。
人為的評価はコストがかかるため、検索と強力な言語モデルを用いて、2%未満のエラー率でファクトスコアを推定する自動化モデルも導入する。
最後に、この自動化メトリックを使用して、最新の13のlsmから6,500世代を評価しています。これは、人間によって評価されれば26kドル(約2万2000円)かかります。
関連論文リスト
- CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Evaluation Metrics in the Era of GPT-4: Reliably Evaluating Large
Language Models on Sequence to Sequence Tasks [9.801767683867125]
我々は,3つのNLPベンチマークの予備的およびハイブリッドな評価を,自動評価と人的評価の両方を用いて提供する。
ChatGPTは、ほとんどのメトリクスにおいて、人間のレビュアーによって、他の人気のあるモデルよりも一貫して優れています。
また、人間のレビュアーは、最高のモデルの出力よりも金の基準を格段に悪く評価し、多くの人気のあるベンチマークの品質が劣っていることを示している。
論文 参考訳(メタデータ) (2023-10-20T20:17:09Z) - Missing Information, Unresponsive Authors, Experimental Flaws: The
Impossibility of Assessing the Reproducibility of Previous Human Evaluations
in NLP [84.08476873280644]
13%の論文は (i) 再生の障壁が十分に低く、 (ii) 再生のために考慮すべき十分な入手可能な情報を持っていた。
その結果,コーディネート・リサーチ・デザインを再現的アプローチから標準化的・再生産的アプローチに変更しなければならなかった。
論文 参考訳(メタデータ) (2023-05-02T17:46:12Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Cut the CARP: Fishing for zero-shot story evaluation [0.0]
対照的なオーサリングとレビュー ペアリングは、ストーリーの優れたゼロショット評価を行うためのスケーラブルで効率的な方法です。
本稿では,物語の人的評価とCARPの人的評価との間に強い相関関係を示す。
また,8万件以上のストーリーから得られた130万件のストーリー批判ペアからなる新たなコーパスであるStory-Critiqueデータセットを提示,分析した。
論文 参考訳(メタデータ) (2021-10-06T23:50:46Z) - The Human Evaluation Datasheet 1.0: A Template for Recording Details of
Human Evaluation Experiments in NLP [1.4467794332678539]
人間評価は、自然言語処理(NLP)における個人評価実験の詳細を記録するためのテンプレートである
人間の評価は、人間の評価の特性を十分に詳細に記録することを目的としている。
論文 参考訳(メタデータ) (2021-03-17T15:08:50Z) - What Can We Learn from Collective Human Opinions on Natural Language
Inference Data? [88.90490998032429]
ChaosNLIは、集合HumAnオピニオンSを研究するための合計464,500のアノテーションを持つデータセットである。
このデータセットは、SNLIとMNLIの3,113例とAbductive-NLIの1,532例に対して、100のアノテーションを例に集めて作成されている。
論文 参考訳(メタデータ) (2020-10-07T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。