Fugu-MT 論文翻訳(概要): SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits

論文の概要: SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits

arxiv url: http://arxiv.org/abs/2412.13378v1
Date: Tue, 17 Dec 2024 23:26:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-19 16:46:52.008516
Title: SummExecEdit: A Factual Consistency Benchmark in Summarization with Executable Edits
Title（参考訳）: SummExecEdit: 実行可能編集による要約におけるFactual Consistency Benchmark
Authors: Onkar Thorat, Philippe Laban, Chien-Sheng Wu,
Abstract要約: SummExecEditは、実行可能編集を利用して、事実の誤りを検出し、正確な説明を提供する能力に基づいてモデルを評価する新しいベンチマークである。トップパフォーマンスモデルであるClaude3-Opusは、ベンチマークで0.49のジョイント検出と説明スコアを達成し、個々のスコアは0.67、説明スコアは0.73である。
参考スコア（独自算出の注目度）: 31.98028879922584
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Detecting factual inconsistencies in summarization is critical, yet existing benchmarks lack the necessary challenge and interpretability for robust evaluation. In this paper, we introduce SummExecEdit, a novel benchmark leveraging executable edits to assess models on their ability to both detect factual errors and provide accurate explanations. The top-performing model, Claude3-Opus, achieves a joint detection and explanation score of only 0.49 in our benchmark, with individual scores of 0.67 for detection and 0.73 for explanation. Furthermore, we identify four primary types of explanation errors, with 45.4% of errors focusing on completely unrelated parts of the summary.
Abstract（参考訳）: 要約における事実の不整合を検出することは重要であるが、既存のベンチマークには堅牢な評価に必要な課題と解釈性がない。本稿では,実行可能編集を利用した新しいベンチマークSummExecEditを紹介する。トップパフォーマンスモデルであるClaude3-Opusは、ベンチマークで0.49のジョイント検出と説明スコアを達成し、個々のスコアは0.67、説明スコアは0.73である。さらに,4種類の説明誤りを同定し,45.4%の誤りは,完全に無関係な部分に焦点を当てている。

関連論文リスト

Iterative Prompt Refinement for Dyslexia-Friendly Text Summarization Using GPT-4o [1.4401311275746886]
本稿では, GPT-4o上に構築した反復的プロンプトベース精錬パイプラインを用いて, ディプレクシアフレンドリーなテキスト要約に関する実証的研究を行った。 Flesch Reading Ease >= 90。その結果,要約の大多数は4回の試行で可読性しきい値に到達し,多くは最初の試行で成功していることがわかった。
論文参考訳（メタデータ） (2026-02-26T01:46:40Z)
Solver-in-the-Loop: MDP-Based Benchmarks for Self-Correction and Behavioral Rationality in Operations Research [19.31559944205485]
運用調査実践者は反復的なプロセスを通じて、不可能なモデルを日常的にデバッグする。評価ループにtextbfsolver を配置するベンチマークを2つ導入する。ドメイン固有のRLVRトレーニングによって、8BモデルがフロンティアAPIを越えられることが分かりました。
論文参考訳（メタデータ） (2026-01-28T20:02:44Z)
Encyclo-K: Evaluating LLMs with Dynamically Composed Knowledge Statements [78.87065404966002]
既存のベンチマークは、主に質問レベルで質問をキュレートする。ベンチマーク構築をゼロから再考するステートメントベースのベンチマークであるEncyclo-Kを提案する。
論文参考訳（メタデータ） (2025-12-31T13:55:54Z)
Unblocking Fine-Grained Evaluation of Detailed Captions: An Explaining AutoRater and Critic-and-Revise Pipeline [58.832237984587664]
VNLI-Critiqueは,自動文レベルの事実性分類と批判生成のためのモデルである。 1) VNLI-CritiqueはM-HalDetectベンチマークの最先端性能によって検証された堅牢な一般化を実証し、(2) VNLI-CritiqueによるDOCCI-Critique向けAutoRaterは信頼性の高いVLMランキングを提供し、人間の事実性判断と優れた整合性を示す。
論文参考訳（メタデータ） (2025-06-09T10:57:26Z)
VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。我々の結果は現在の状態を示している。
論文参考訳（メタデータ） (2025-05-26T01:20:44Z)
Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文参考訳（メタデータ） (2025-05-20T21:12:58Z)
YourBench: Easy Custom Evaluation Sets for Everyone [12.995134931278056]
YourBenchは、大規模言語モデル(LLM)を評価するための、新しいオープンソースのフレームワークである。手動のアノテーションなしで、信頼性が高く、最新で、ドメインに適したベンチマークを安価に生成する。我々はTemporaに基づくYourBenchライブラリ、Tempora-0325データセット、150k以上の質問応答ペア、およびすべての評価と推論トレースをリリースする。
論文参考訳（メタデータ） (2025-04-02T15:40:24Z)
STORYSUMM: Evaluating Faithfulness in Story Summarization [31.94902013480574]
本稿では,局所的な忠実度ラベルと誤り説明を含む短編を収録した新しいデータセットであるSTORYSUMMを紹介する。このベンチマークは、あるメソッドが挑戦的な不整合を検出できるかどうかをテストする評価方法である。
論文参考訳（メタデータ） (2024-07-09T02:06:30Z)
Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文参考訳（メタデータ） (2024-06-18T18:59:37Z)
Assessing the Efficacy of Grammar Error Correction: A Human Evaluation Approach in the Japanese Context [10.047123247001714]
我々は,最先端のシーケンスタギング文法誤り検出・修正モデル(SeqTagger)の性能評価を行った。自動アノテーションツールキット ERRANT を用いて,SeqTagger の性能評価を行った。その結果、精度は63.66%、リコールは20.19%であった。
論文参考訳（メタデータ） (2024-02-28T06:43:43Z)
AttributionBench: How Hard is Automatic Attribution Evaluation? [19.872081697282002]
AttributionBenchは、様々な既存の属性データセットからコンパイルされた包括的なベンチマークである。実験の結果,微調整GPT-3.5でさえ,二項分類法で約80%のマクロF1しか達成できないことがわかった。 300以上のエラーケースの詳細な分析では、失敗の大部分は、ナンスされた情報を処理できないことに起因する。
論文参考訳（メタデータ） (2024-02-23T04:23:33Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Zero-shot Faithful Factual Error Correction [53.121642212060536]
事実の誤りを忠実に訂正することは、テキストの知識基盤の整合性を維持し、シーケンス・ツー・シーケンス・モデルにおける幻覚を防ぐために重要である。提案するゼロショットフレームワークは,入力クレームに関する質問を定式化し,与えられたエビデンスにおける正しい回答を求め,そのエビデンスとの整合性に基づいて各補正の忠実さを評価する。
論文参考訳（メタデータ） (2023-05-13T18:55:20Z)
BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。 BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文参考訳（メタデータ） (2022-12-20T02:17:30Z)
Evaluating the Factual Consistency of Large Language Models Through News Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文参考訳（メタデータ） (2022-11-15T18:50:34Z)
Improving Visual Grounding by Encouraging Consistent Gradient-based Explanations [58.442103936918805]
注意マスク整合性は,従来の方法よりも優れた視覚的グラウンドリング結果が得られることを示す。 AMCは効率的で実装が容易であり、どんな視覚言語モデルでも採用できるため一般的である。
論文参考訳（メタデータ） (2022-06-30T17:55:12Z)
Understanding Factual Errors in Summarization: Errors, Summarizers, Datasets, Error Detectors [105.12462629663757]
本研究では、既存の9つのデータセットから事実性エラーアノテーションを集約し、基礎となる要約モデルに従ってそれらを階層化する。本稿では,この階層化ベンチマークにおいて,最近のChatGPTベースの指標を含む最先端の事実性指標の性能を比較し,その性能が様々な種類の要約モデルで大きく異なることを示す。
論文参考訳（メタデータ） (2022-05-25T15:26:48Z)
Investigating Crowdsourcing Protocols for Evaluating the Factual Consistency of Summaries [59.27273928454995]
要約に適用される現在の事前学習モデルは、ソーステキストを誤って表現したり、外部情報を導入したりする事実上の矛盾がちである。評価ベースのLikertスケールとランキングベースのBest-Worst Scalingプロトコルを用いた,事実整合性のためのクラウドソーシング評価フレームワークを構築した。ランキングベースのプロトコルは、データセット間の要約品質をより信頼性の高い尺度を提供するのに対して、Likertレーティングの信頼性はターゲットデータセットと評価設計に依存する。
論文参考訳（メタデータ） (2021-09-19T19:05:00Z)
SummEval: Re-evaluating Summarization Evaluation [169.622515287256]
総合的かつ一貫した方法で14の自動評価指標を再評価する。上記の自動評価指標を用いて,最近の要約モデル23をベンチマークした。我々は、CNN/DailyMailニュースデータセットでトレーニングされたモデルによって生成された最大の要約コレクションを組み立てる。
論文参考訳（メタデータ） (2020-07-24T16:25:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。