論文の概要: Re-FRAME the Meeting Summarization SCOPE: Fact-Based Summarization and Personalization via Questions
- arxiv url: http://arxiv.org/abs/2509.15901v1
- Date: Fri, 19 Sep 2025 11:58:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.15262
- Title: Re-FRAME the Meeting Summarization SCOPE: Fact-Based Summarization and Personalization via Questions
- Title(参考訳): ミーティング要約SCOPEの再編成: ファクトベース要約と質問によるパーソナライゼーション
- Authors: Frederic Kirstein, Sonu Kumar, Terry Ruas, Bela Gipp,
- Abstract要約: 本稿では,要約をセマンティックエンリッチメントタスクとして再構成するモジュールパイプラインFRAMEを紹介する。
FRAMEは健全な事実を抽出し、それらを主題的に整理し、それらを抽象的な要約にまとめる。
要約をパーソナライズするために、コンテンツ選択の前に9つの質問に答えることにより、推論トレースをモデルに構築する、推論アウトルードプロトコルであるSCOPEを導入する。
- 参考スコア(独自算出の注目度): 9.381476258394175
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Meeting summarization with large language models (LLMs) remains error-prone, often producing outputs with hallucinations, omissions, and irrelevancies. We present FRAME, a modular pipeline that reframes summarization as a semantic enrichment task. FRAME extracts and scores salient facts, organizes them thematically, and uses these to enrich an outline into an abstractive summary. To personalize summaries, we introduce SCOPE, a reason-out-loud protocol that has the model build a reasoning trace by answering nine questions before content selection. For evaluation, we propose P-MESA, a multi-dimensional, reference-free evaluation framework to assess if a summary fits a target reader. P-MESA reliably identifies error instances, achieving >= 89% balanced accuracy against human annotations and strongly aligns with human severity ratings (r >= 0.70). On QMSum and FAME, FRAME reduces hallucination and omission by 2 out of 5 points (measured with MESA), while SCOPE improves knowledge fit and goal alignment over prompt-only baselines. Our findings advocate for rethinking summarization to improve control, faithfulness, and personalization.
- Abstract(参考訳): 大型言語モデル (LLM) との要約は誤りを起こしやすいままであり、幻覚、省略、不都合を伴う出力をしばしば生成する。
本稿では,要約をセマンティックエンリッチメントタスクとして再構成するモジュールパイプラインFRAMEを紹介する。
FRAMEは、健全な事実を抽出し、それらを主題的に整理し、それらを抽象的な要約にまとめるために利用する。
要約をパーソナライズするために、コンテンツ選択の前に9つの質問に答えることにより、推論トレースをモデルに構築する、推論アウトルードプロトコルであるSCOPEを導入する。
評価のために,要約が対象読者に適合するかどうかを評価するための多次元参照フリー評価フレームワークであるP-MESAを提案する。
P-MESAはエラー事例を確実に識別し,<i>=89%の精度で人間のアノテーションと一致し,ヒトの重症度評価(r>=0.70)と強く一致している。
QMSumとFAMEでは、FRAMEは幻覚と省略を5点中2点(MESAで測定)削減し、SCOPEはプロンプトのみのベースラインよりも知識適合性とゴールアライメントを改善している。
本研究は, 統括性, 忠実性, パーソナライゼーションを改善するため, 要約の再考を提唱する。
関連論文リスト
- What's Wrong? Refining Meeting Summaries with LLM Feedback [6.532478490187084]
本稿では,人間レビュープロセスを模倣した2段階プロセスを用いて,会議要約のためのマルチLLM補正手法を提案する。
QMSum Mistakeは、人によって注釈付けされた会議要約を9種類のエラータイプで自動生成する200のデータセットである。
特定ミスを実用的なフィードバックに変換することで,関連性,情報性,簡潔性,一貫性によって測定された要約の質を向上させる。
論文 参考訳(メタデータ) (2024-07-16T17:10:16Z) - FENICE: Factuality Evaluation of summarization based on Natural language Inference and Claim Extraction [85.26780391682894]
自然言語推論とクレーム抽出(FENICE)に基づく要約のファクチュアリティ評価を提案する。
FENICEは、ソース文書内の情報と、要約から抽出されたクレームと呼ばれる一連の原子的事実との間のNLIベースのアライメントを利用する。
我々の測定基準は、事実性評価のためのデファクトベンチマークであるAGGREFACTに関する新しい技術状況を設定する。
論文 参考訳(メタデータ) (2024-03-04T17:57:18Z) - One Prompt To Rule Them All: LLMs for Opinion Summary Evaluation [30.674896082482476]
我々は,Op-I-Promptが,人間との平均スピアマン相関を0。
我々の知る限り、我々は、意見要約領域において、クローズドソースモデルとオープンソースモデルの両方において、LCMを評価対象として調査した最初の人物です。
論文 参考訳(メタデータ) (2024-02-18T19:13:52Z) - HaRiM$^+$: Evaluating Summary Quality with Hallucination Risk [0.6617666829632144]
本稿では,トークン確率に基づいて幻覚リスクを計算するために,既成の要約モデルのみを必要とする基準自由度HaRiM+を提案する。
要約品質評価において,HaRiM+は,FRANK,QAGS,SummEvalの3つの要約品質アノテーションセットに対して,人間の判断に対する最先端の相関を記録する。
論文 参考訳(メタデータ) (2022-11-22T09:36:41Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - SNaC: Coherence Error Detection for Narrative Summarization [73.48220043216087]
SNaCは長文の微粒化アノテーションに根ざした物語コヒーレンス評価フレームワークである。
本稿では,生成した物語要約におけるコヒーレンスエラーの分類法を開発し,150冊の本や映画の脚本要約にまたがる6.6k文のスパンレベルアノテーションを収集する。
我々の研究は、最先端の要約モデルによって生成されるコヒーレンスエラーの最初の特徴と、群衆アノテータからコヒーレンス判断を引き出すためのプロトコルを提供する。
論文 参考訳(メタデータ) (2022-05-19T16:01:47Z) - CONFIT: Toward Faithful Dialogue Summarization with
Linguistically-Informed Contrastive Fine-tuning [5.389540975316299]
生成された要約における現実的な矛盾は、抽象的な対話要約の実践的応用を著しく制限する。
本稿では,エラーのタイプを強調し,事実性に対する二項的理解から遠ざかるために,アノテーションデータを用いた事実的エラーのタイプ分析を行う。
本稿では,ConFiTと呼ばれる新しいコントラスト微調整手法により,要約の事実整合性と全体的な品質を改善するためのトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T09:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。