論文の概要: FactSim: Fact-Checking for Opinion Summarization
- arxiv url: http://arxiv.org/abs/2602.08709v1
- Date: Mon, 09 Feb 2026 14:21:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.285266
- Title: FactSim: Fact-Checking for Opinion Summarization
- Title(参考訳): FactSim: 意見要約のためのFact-Checking
- Authors: Leandro Anghinoni, Jorge Sanchez,
- Abstract要約: テキスト要約タスクにおける生成人工知能(GenAI)のより包括的で正確な評価手法の必要性について検討する。
意見項目の集合から機械生成要約を比較するために自動メトリクスを利用する従来の手法は、大きな言語モデル(LLM)によって導入されたパラダイムシフトによって制限が示されてきた。
本稿では,このような要約の事実整合性を評価するための,新しい完全自動化手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We explore the need for more comprehensive and precise evaluation techniques for generative artificial intelligence (GenAI) in text summarization tasks, specifically in the area of opinion summarization. Traditional methods, which leverage automated metrics to compare machine-generated summaries from a collection of opinion pieces, e.g. product reviews, have shown limitations due to the paradigm shift introduced by large language models (LLM). This paper addresses these shortcomings by proposing a novel, fully automated methodology for assessing the factual consistency of such summaries. The method is based on measuring the similarity between the claims in a given summary with those from the original reviews, measuring the coverage and consistency of the generated summary. To do so, we rely on a simple approach to extract factual assessment from texts that we then compare and summarize in a suitable score. We demonstrate that the proposed metric attributes higher scores to similar claims, regardless of whether the claim is negated, paraphrased, or expanded, and that the score has a high correlation to human judgment when compared to state-of-the-art metrics.
- Abstract(参考訳): 本稿では,テキスト要約タスク,特に意見要約領域において,生成人工知能(GenAI)のより包括的で正確な評価手法の必要性について検討する。
例えば、製品レビューのような意見の集合から生成された要約を比較するために自動メトリクスを利用する従来の手法は、大きな言語モデル(LLM)によって導入されたパラダイムシフトによって制限が示されてきた。
本稿では,このような要約の事実整合性を評価するための,新しい完全自動化手法を提案することによって,これらの欠点に対処する。
提案手法は,所定の要約におけるクレームと原レビューのクレームとの類似度を測定し,生成された要約のカバレッジと一貫性を測定する。
そこで本研究では,テキストから事実評価を抽出し,適切なスコアで比較・要約する簡単な手法を用いる。
提案手法は,クレームが否定されたり,言い換えられたり,拡張されたりするかどうかに関わらず,類似のクレームよりも高いスコア特性を示し,そのスコアが最先端の指標と比較して人間の判断と高い相関性を有することを示した。
関連論文リスト
- FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - Interpretable Automatic Fine-grained Inconsistency Detection in Text
Summarization [56.94741578760294]
本研究の目的は, 要約中の事実誤りの微粒化を予測し, 微粒化不整合検出の課題を提案することである。
要約における現実的不整合の検査方法に触発され,解析可能な微粒不整合検出モデルであるFinGrainFactを提案する。
論文 参考訳(メタデータ) (2023-05-23T22:11:47Z) - Factual Consistency Evaluation for Text Summarization via Counterfactual
Estimation [42.63902468258758]
本稿では,テキスト要約における事実整合性を評価するための新しい指標を提案する。
我々は3つの公開抽象テキスト要約データセットについて一連の実験を行った。
論文 参考訳(メタデータ) (2021-08-30T11:48:41Z) - A Training-free and Reference-free Summarization Evaluation Metric via
Centrality-weighted Relevance and Self-referenced Redundancy [60.419107377879925]
トレーニング不要かつ参照不要な要約評価指標を提案する。
我々の測定基準は、集中度重み付き関連度スコアと自己参照冗長度スコアからなる。
提案手法は,複数文書と単一文書の要約評価において,既存の手法よりも大幅に優れる。
論文 参考訳(メタデータ) (2021-06-26T05:11:27Z) - Improving Factual Consistency of Abstractive Summarization via Question
Answering [25.725873545789046]
要約における事実整合性に対処するアプローチを提案する。
まず,実体整合性を測定するための効率的な自動評価指標を提案する。
次に,モデル学習時に提案するメトリックを最大化する新しい学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:07:21Z) - Understanding Factuality in Abstractive Summarization with FRANK: A
Benchmark for Factuality Metrics [17.677637487977208]
現代の要約モデルは、高度に流れるが、実際には信頼できない出力を生成する。
一般的なベンチマークがないため、自動生成したサマリーの事実性を測定するためのメトリクスを比較することはできない。
我々は,事実誤りの類型を考案し,それを用いて,最先端の要約システムから生成された要約の人間のアノテーションを収集する。
論文 参考訳(メタデータ) (2021-04-27T17:28:07Z) - Understanding the Extent to which Summarization Evaluation Metrics
Measure the Information Quality of Summaries [74.28810048824519]
ROUGEとBERTScoreのトークンアライメントを分析し、要約を比較する。
それらのスコアは、情報の重複を測定するものとしては解釈できない、と我々は主張する。
論文 参考訳(メタデータ) (2020-10-23T15:55:15Z) - SueNes: A Weakly Supervised Approach to Evaluating Single-Document
Summarization via Negative Sampling [25.299937353444854]
本研究は,参照要約の存在を伴わない,弱教師付き要約評価手法に対する概念実証研究である。
既存の要約データセットの大量データは、文書と破損した参照要約とのペアリングによってトレーニングのために変換される。
論文 参考訳(メタデータ) (2020-05-13T15:40:13Z) - Enhancing Factual Consistency of Abstractive Summarization [57.67609672082137]
ファクトアウェアな要約モデル FASum を提案し,実情関係を抽出し,要約生成プロセスに統合する。
次に,既存のシステムから生成した要約から事実誤りを自動的に補正する事実補正モデルFCを設計する。
論文 参考訳(メタデータ) (2020-03-19T07:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。