論文の概要: VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation
- arxiv url: http://arxiv.org/abs/2406.19276v1
- Date: Thu, 27 Jun 2024 15:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 13:38:31.414472
- Title: VERISCORE: Evaluating the factuality of verifiable claims in long-form text generation
- Title(参考訳): VERISCORE:長文テキスト生成における検証可能なクレームの事実性の評価
- Authors: Yixiao Song, Yekyung Kim, Mohit Iyyer,
- Abstract要約: 長い形式のテキストの事実性を評価するための既存のメトリクスは、入力テキストを「アトミッククレーム」に分解し、ウィキペディアのような知識ベースに対して検証する。
本稿では、検証可能なコンテンツと検証できないコンテンツの両方を含む様々な長文生成タスクのメトリクスであるVERISCOREを用いてこの問題に対処する。
我々はVERISCOREを用いて、複数の長期タスクにわたる16の異なるモデルから世代を評価し、GPT-4oが全体として最高のパフォーマンスモデルであるのに対して、Mixtral-8x22のようなオープンウェイトモデルはギャップを埋めていることを発見した。
- 参考スコア(独自算出の注目度): 37.16881685930474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing metrics for evaluating the factuality of long-form text, such as FACTSCORE (Min et al., 2023) and SAFE (Wei et al., 2024), decompose an input text into "atomic claims" and verify each against a knowledge base like Wikipedia. These metrics are not suitable for most generation tasks because they assume that every claim is verifiable (i.e., can plausibly be proven true or false). We address this issue with VERISCORE, a metric for diverse long-form generation tasks that contain both verifiable and unverifiable content. VERISCORE can be effectively implemented with either closed or fine-tuned open-weight language models, and human evaluation confirms that VERISCORE's extracted claims are more sensible than those from competing methods across eight different long-form tasks. We use VERISCORE to evaluate generations from 16 different models across multiple long-form tasks and find that while GPT-4o is the best-performing model overall, open-weight models such as Mixtral-8x22 are closing the gap. We show that an LM's VERISCORE on one task (e.g., biography generation) does not necessarily correlate to its VERISCORE on a different task (e.g., long-form QA), highlighting the need for expanding factuality evaluation across tasks with varying fact density.
- Abstract(参考訳): FACTSCORE (Min et al , 2023) やSAFE (Wei et al , 2024) のような長文の事実を評価するための既存の指標は、入力テキストを「アトミッククレーム」に分解し、ウィキペディアのような知識ベースに対して検証する。
これらの指標は、すべてのクレームが検証可能であると仮定するため、ほとんどの世代タスクには適さない(つまり、少なくとも真または偽であることが証明できる)。
本稿では、検証可能なコンテンツと検証できないコンテンツの両方を含む様々な長文生成タスクのメトリクスであるVERISCOREを用いてこの問題に対処する。
VERISCOREは、クローズドまたは微調整されたオープンウェイト言語モデルで効果的に実装することができ、人間の評価により、VERISCOREの主張が8つの異なるロングフォームタスクの競合するメソッドよりも適切であることが確認できる。
我々はVERISCOREを用いて、複数の長期タスクにわたる16の異なるモデルから世代を評価し、GPT-4oが全体として最高のパフォーマンスモデルであるのに対して、Mixtral-8x22のようなオープンウェイトモデルはそのギャップを埋めていることを発見した。
一方のタスク(例えば、伝記生成)におけるLMのVERISCOREは、異なるタスク(例えば、ロングフォームQA)におけるVERISCOREと必ずしも相関しないことを示す。
関連論文リスト
- FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Evaluating Language Model Context Windows: A "Working Memory" Test and Inference-time Correction [10.428174043080622]
大規模言語モデルは現実世界のアプリケーションで顕著に使われ、しばしば大量の文書を推論する。
本稿では,標準テストの限界に対処する評価フレームワークであるSWiMを提案する。
また,この効果を緩和する,単純かつ効果的なトレーニングフリーアプローチであるメドイド投票を提案する。
論文 参考訳(メタデータ) (2024-07-04T05:46:20Z) - COVID-19 Twitter Sentiment Classification Using Hybrid Deep Learning Model Based on Grid Search Methodology [0.0]
感情予測は、Twitter COVID-19データセットへの埋め込み、ディープラーニングモデル、グリッド検索アルゴリズムを使用して達成される。
研究によると、新型コロナウイルスの接種に対する大衆の感情は、時間とともに改善しているようだ。
論文 参考訳(メタデータ) (2024-06-11T07:48:06Z) - Long-form factuality in large language models [60.07181269469043]
大規模言語モデル(LLM)は、しばしば、オープンエンドトピックの事実検索プロンプトに応答するときに、事実エラーを含むコンテンツを生成する。
我々は、GPT-4を用いて、オープンドメインにおけるモデルの長文事実をベンチマークし、LongFactを生成する。
そこで我々は,LLMエージェントを検索拡張現実性評価器 (SAFE) と呼ぶ手法により,長期的事実性の自動評価器として使用できることを提案する。
論文 参考訳(メタデータ) (2024-03-27T17:48:55Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Fast and Accurate Factual Inconsistency Detection Over Long Documents [19.86348214462828]
我々は,新しいチャンキング戦略を用いて,現実の不整合を検出するタスク非依存モデルであるSCALEを紹介する。
このアプローチは、様々なタスクや長い入力に対して、現実の不整合検出における最先端のパフォーマンスを実現する。
コードとデータはGitHubに公開しています。
論文 参考訳(メタデータ) (2023-10-19T22:55:39Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。