Fugu-MT 論文翻訳(概要): FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction

論文の概要: FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction

arxiv url: http://arxiv.org/abs/2403.02270v1
Date: Mon, 4 Mar 2024 17:57:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 17:48:23.064524
Title: FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction
Title（参考訳）: fenice:自然言語推論とクレーム抽出に基づく要約の事実性評価
Authors: Alessandro Scir\`e and Karim Ghonim and Roberto Navigli
Abstract要約: 自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
参考スコア（独自算出の注目度）: 92.2477303232719
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Recent advancements in text summarization, particularly with the advent of Large Language Models (LLMs), have shown remarkable performance. However, a notable challenge persists as a substantial number of automatically-generated summaries exhibit factual inconsistencies, such as hallucinations. In response to this issue, various approaches for the evaluation of consistency for summarization have emerged. Yet, these newly-introduced metrics face several limitations, including lack of interpretability, focus on short document summaries (e.g., news articles), and computational impracticality, especially for LLM-based metrics. To address these shortcomings, we propose Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction (FENICE), a more interpretable and efficient factuality-oriented metric. FENICE leverages an NLI-based alignment between information in the source document and a set of atomic facts, referred to as claims, extracted from the summary. Our metric sets a new state of the art on AGGREFACT, the de-facto benchmark for factuality evaluation. Moreover, we extend our evaluation to a more challenging setting by conducting a human annotation process of long-form summarization.
Abstract（参考訳）: テキスト要約の最近の進歩、特にLarge Language Models(LLMs)の出現は、顕著な性能を示している。しかし、かなりの数の自動生成要約が幻覚のような事実的不一致を示すため、注目すべき課題が続いている。この問題に対して,要約のための一貫性評価のための様々なアプローチが出現している。しかし、これらの新しく導入されたメトリクスは、解釈可能性の欠如、短い文書要約(ニュース記事など)、特にLLMベースのメトリクスの計算不可能性など、いくつかの制限に直面している。これらの欠点に対処するために、より解釈可能で効率的な事実指向メトリックである自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。 FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実の間のNLIベースのアライメントを利用する。我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。さらに、長文要約の人間のアノテーションプロセスを実行することにより、評価をより困難な設定に拡張する。

関連論文リスト

Stress Testing Factual Consistency Metrics for Long-Document Summarization [36.761145124360944]
筆者らは,6つの参照自由事実性指標の信頼性を体系的に評価した。要約に適用した7つの事実保存摂動を通して、計量ロバスト性を探索する。以上の結果から,既存のショートフォームメトリクスは意味論的に等価な要約に対して一貫性のないスコアを生成し,情報密度の主張に対して信頼性が低下していることが判明した。
論文参考訳（メタデータ） (2025-11-10T23:24:25Z)
NeedleBench: Evaluating LLM Retrieval and Reasoning Across Varying Information Densities [51.07379913779232]
NeedleBenchは、長いコンテキストタスクにおける検索と推論のパフォーマンスを評価するためのフレームワークである。モデルの機能を厳格にテストするために、キーデータポイントをさまざまな深さに埋め込む。実験の結果,Deep-R1やOpenAIのo3のような推論モデルは,情報密度シナリオにおける連続的な検索と推論に苦労していることがわかった。
論文参考訳（メタデータ） (2024-07-16T17:59:06Z)
Fine-Grained Natural Language Inference Based Faithfulness Evaluation for Diverse Summarisation Tasks [14.319567507959759]
既成の自然言語推論(NLI)モデルを用いた要約忠実度の評価手法について検討した。 InFusEという新しい手法を提案する。これは、変数の前提サイズを使い、要約文を短い仮説に単純化する。
論文参考訳（メタデータ） (2024-02-27T15:57:11Z)
TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文参考訳（メタデータ） (2024-02-20T18:58:49Z)
AMRFact: Enhancing Summarization Factuality Evaluation with AMR-Driven Negative Samples Generation [57.8363998797433]
抽象的意味表現(AMR)を用いた摂動要約を生成するフレームワークであるAMRFactを提案する。提案手法は,AMRグラフに一貫した要約を解析し,制御された事実不整合を注入して負の例を生成し,一貫性のない事実不整合要約を高い誤差型カバレッジで生成する。
論文参考訳（メタデータ） (2023-11-16T02:56:29Z)
Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文参考訳（メタデータ） (2023-08-28T03:03:03Z)
Evaluation of Faithfulness Using the Longest Supported Subsequence [52.27522262537075]
本稿では,文脈によって支持される請求項の最長不連続性を計算し,機械生成テキストの忠実さを評価する新しい手法を提案する。新しい人間アノテーション付きデータセットを使用して、モデルを微調整してLongest Supported Subsequence(LSS)を生成する。提案手法は,我々のデータセットの忠実度に対する最先端のメトリクスよりも18%向上していることを示す。
論文参考訳（メタデータ） (2023-08-23T14:18:44Z)
Evaluating and Improving Factuality in Multimodal Abstractive Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文参考訳（メタデータ） (2022-11-04T16:50:40Z)
How Far are We from Robust Long Abstractive Summarization? [39.34743996451813]
我々は、信頼できる要約を生成するために、長い文書抽象要約システム(モデルとメトリクス)を実装して評価する。長期の文書評価指標について,人間の評価結果から,ROUGEは要約の関連性を評価する上で最善であることが明らかとなった。我々は、より広い範囲の要約設定でメトリクスの開発に貢献できることを願って、注釈付き長いドキュメントデータセットをリリースします。
論文参考訳（メタデータ） (2022-10-30T03:19:50Z)
Factual Consistency Evaluation for Text Summarization via Counterfactual Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文参考訳（メタデータ） (2021-08-30T11:48:41Z)
Understanding Factuality in Abstractive Summarization with FRANK: A Benchmark for Factuality Metrics [17.677637487977208]
現代の要約モデルは、高度に流れるが、実際には信頼できない出力を生成する。一般的なベンチマークがないため、自動生成したサマリーの事実性を測定するためのメトリクスを比較することはできない。我々は,事実誤りの類型を考案し,それを用いて,最先端の要約システムから生成された要約の人間のアノテーションを収集する。
論文参考訳（メタデータ） (2021-04-27T17:28:07Z)
Enhancing Factual Consistency of Abstractive Summarization [57.67609672082137]
ファクトアウェアな要約モデル FASum を提案し,実情関係を抽出し,要約生成プロセスに統合する。次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。
論文参考訳（メタデータ） (2020-03-19T07:36:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。