論文の概要: LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization
- arxiv url: http://arxiv.org/abs/2604.25130v1
- Date: Tue, 28 Apr 2026 02:07:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.66222
- Title: LongSumEval: Question-Answering Based Evaluation and Feedback-Driven Refinement for Long Document Summarization
- Title(参考訳): LongSumEval: 質問応答に基づくロングドキュメント要約のための評価とフィードバック駆動型リファインメント
- Authors: Huyen Nguyen, Haoxuan Zhang, Yang Zhang, Haihua Chen, Junhua Ding,
- Abstract要約: LongSumEvalは構造化された質問応答フィードバックを通じて評価と生成を行う統合フレームワークである。
このフレームワークは、要約品質を回答可能性と質問と回答のペアの実際のアライメントとして運用する。
構造化されたフィードバックは、再トレーニングせずに自己修正を通じて、大幅な品質改善を可能にする。
- 参考スコア(独自算出の注目度): 5.106530060248491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating long document summaries remains the primary bottleneck in summarization research. Existing metrics correlate weakly with human judgments and produce aggregate scores without explaining deficiencies or guiding improvement, preventing effective refinement in applications requiring verifiable accuracy. We introduce LongSumEval, a unified framework bridging evaluation and generation through structured question-answering feedback. The framework operationalizes summary quality as answerability and factual alignment of question-answer pairs, generating interpretable scores and actionable feedback that identifies coverage gaps and factual inconsistencies. This resolves the misalignment where evaluation operates independently of generation objectives. Meta-evaluation of our QA-based evaluation module across seven benchmarks demonstrates substantially stronger agreement with human judgments compared to established metrics. Structured feedback enables significant quality improvements through self-refinement without retraining. By demonstrating that evaluation feedback can serve as executable instructions for generation, this work establishes a generalizable paradigm for aligning assessment with improvement, with direct implications for controllable text generation requiring verifiable accuracy and transparent quality control. All code and datasets will be released in GitHub for reproducibility.
- Abstract(参考訳): 長い文書要約を評価することは、要約研究における主要なボトルネックである。
既存のメトリクスは、人間の判断と弱相関し、欠陥の説明や改善を導くことなく集計スコアを生成する。
本稿では,構造化質問応答による評価と生成を統合したフレームワークであるLongSumEvalを紹介する。
このフレームワークは、要約品質を質問対の回答可能性および事実整合性として運用し、カバーギャップと事実の不整合を識別する解釈可能なスコアと行動可能なフィードバックを生成する。
これにより、評価が生成目的とは独立して動作するような不整合を解消する。
7つのベンチマークによるQAに基づく評価モジュールのメタ評価は、確立された指標と比較して、人間の判断とはかなり強い一致を示している。
構造化されたフィードバックは、再トレーニングせずに自己修正を通じて、大幅な品質改善を可能にする。
評価フィードバックが生成のための実行可能な命令として機能できることを実証することにより、評価と改善を整合させるための一般化可能なパラダイムを確立し、検証精度と透明な品質制御を必要とする制御可能なテキスト生成に直接的な意味を与える。
すべてのコードとデータセットは、再現性のためにGitHubでリリースされる。
関連論文リスト
- Coverage, Not Averages: Semantic Stratification for Trustworthy Retrieval Evaluation [3.4588983513116065]
検索向上世代(RAG)における検索品質は精度とロバスト性の主要なボトルネックである
我々は,評価を統計的推定問題として定式化し,評価セットの構成によってメートル法信頼性が根本的に制限されていることを示す。
その結果,(1)検索のセマンティック・システマティクスにまたがる形式的カバレッジ保証,(2)検索の失敗モードへの解釈可能な可視性を実現した。
論文 参考訳(メタデータ) (2026-04-22T16:49:30Z) - Beyond Rating: A Comprehensive Evaluation and Benchmark for AI Reviews [69.66583722746904]
私たちは、AIレビュアーを5次元にわたって評価する総合的な評価フレームワークであるBeyond Ratingを紹介します。
本稿では,専門家の不一致に対応するためのMax-Recall戦略を提案する。
提案したテキスト中心の指標は、特に弱みの議論のリコールであり、評価精度と強く相関している。
論文 参考訳(メタデータ) (2026-04-21T14:21:15Z) - FRESCO: Benchmarking and Optimizing Re-rankers for Evolving Semantic Conflict in Retrieval-Augmented Generation [73.22935457705057]
時間的動的文脈における再ランカ評価のためのベンチマークであるFRESCOを紹介する。
レクエンシ検索クエリと過去のウィキペディアのリビジョンを組み合わせることで、FRESCOは、セマンティックな関連性を維持しながら、リランカが事実として最新の証拠を優先順位付けできるかどうかをテストする。
我々の評価では、既存の再ランカ間で一貫した障害モードが明らかになっている。
論文 参考訳(メタデータ) (2026-04-14T17:04:25Z) - The Validity of Coreference-based Evaluations of Natural Language Understanding [3.505146496638911]
標準のコア参照評価を分析し、それらの設計がしばしば一般化不可能な結論につながることを示す。
イベントの相対的妥当性を推測するテストシステムの能力に着目した,新たな評価手法を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-18T05:49:28Z) - DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [15.19714327680248]
チェックリストに基づく評価フレームワークであるCheckEvalを導入する。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。