論文の概要: Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2604.17188v2
- Date: Tue, 28 Apr 2026 11:56:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 14:06:43.770676
- Title: Beyond Overlap Metrics: Rewarding Reasoning and Preferences for Faithful Multi-Role Dialogue Summarization
- Title(参考訳): オーバーラップメトリクスを超えて: 忠実なマルチロール対話要約のための推論と推奨
- Authors: Xiaoyong Mei, Tingting Zuo, Da Chen, Guangyu Hu, Xiangyu Wen, Chao Duan, Mingyan Zhang, Fudan Zheng,
- Abstract要約: マルチロール対話要約では、複数の話者間の複雑な相互作用をモデル化する必要がある。
既存のほとんどのメソッドはROUGEやBERTScoreのような自動メトリクスに最適化されている。
報酬に基づく最適化と明示的な認知的推論を結合する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 5.909152930998754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-role dialogue summarization requires modeling complex interactions among multiple speakers while preserving role-specific information and factual consistency. However, most existing methods optimize for automatic metrics such as ROUGE and BERTScore, which favor surface-level imitation of references rather than genuine gains in faithfulness or alignment with human preferences. We propose a novel framework that couples explicit cognitive-style reasoning with reward-based optimization for multi-role dialogue summarization. Our method first distills structured reasoning traces (e.g., step-by-step inferences and intermediate reflections) from a large teacher model and uses them as auxiliary supervision to initialize a reasoning-aware summarizer via staged supervised fine-tuning. It then applies GRPO with a dual-principle reward that blends metric-based signals with human-aligned criteria targeting key information coverage, implicit inference, factual faithfulness, and conciseness. Experiments on multilingual multi-role dialogue benchmarks show that our method matches strong baselines on ROUGE and BERTScore. Specifically, results on CSDS confirm the framework's stability in semantic consistency, while in-depth analysis on SAMSum demonstrates clear gains in factual faithfulness and model-based preference alignment. These findings underscore the value of reasoning-aware and preference-aware training for reliable dialogue summarization. Checkpoints and datasets are available at https://huggingface.co/collections/NebulaPixel/summorchestra-multirole-summary.
- Abstract(参考訳): マルチロール対話要約では、複数の話者間の複雑な相互作用をモデル化し、役割固有の情報と事実整合性を保持する必要がある。
しかし、既存のほとんどの手法はROUGEやBERTScoreのような自動メトリクスに最適化されている。
本稿では,多言語対話要約のための報酬ベース最適化と明示的な認知的推論を組み合わせた新しいフレームワークを提案する。
提案手法はまず,大規模教師モデルから構造化推論トレース(ステップバイステップ推論,中間反射)を蒸留し,それを補助監督として利用して,段階的教師による微調整による推論認識要約を初期化する。
次に、GRPOを二重原理の報酬で適用し、重要な情報カバレッジ、暗黙の推論、事実の忠実さ、簡潔さを目標とした、メトリックベースの信号と人間の整合した基準をブレンドする。
多言語多言語対話ベンチマークの実験により,ROUGEとBERTScoreの強い基準値に一致した。
具体的には,CSDSの結果から,セマンティック一貫性におけるフレームワークの安定性が確認され,SAMSumの詳細な分析では,事実の忠実性やモデルに基づく嗜好の整合性が明らかとなった。
これらの知見は、信頼性のある対話要約のための推論・認識・嗜好・認識訓練の価値を裏付けるものである。
チェックポイントとデータセットはhttps://huggingface.co/collections/NebulaPixel/summorchestra-multirole-summaryで公開されている。
関連論文リスト
- REVEALER: Reinforcement-Guided Visual Reasoning for Element-Level Text-Image Alignment Evaluation [10.151027538362259]
REVEALERは、強化誘導視覚推論に基づく要素レベルのアライメント評価のための統一的なフレームワークである。
提案手法は,MLLM(Multimodal Large Language Models)を用いて意味的要素を明示的にローカライズし,解釈可能なアライメント判断を導出する。
論文 参考訳(メタデータ) (2025-12-29T03:24:09Z) - Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。
RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。
本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T08:33:11Z) - LLM-based Bi-level Multi-interest Learning Framework for Sequential Recommendation [54.396000434574454]
本稿では,暗黙的行動と明示的意味論的視点を組み合わせた新しい多目的SRフレームワークを提案する。
Implicit Behavioral Interest ModuleとExplicit Semantic Interest Moduleの2つのモジュールが含まれている。
4つの実世界のデータセットの実験は、フレームワークの有効性と実用性を検証する。
論文 参考訳(メタデータ) (2024-11-14T13:00:23Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs [2.324913904215885]
本稿では,Rationale-based Multiple Trait Scoring (RMTS)について紹介する。
RMTSは、プロンプトエンジニアリングに基づく大規模言語モデル(LLM)と、より小さな大規模言語モデル(S-LLM)を用いた微調整ベースのエッセイスコアモデルを統合する。
ASAP、ASAP++、Feedback Prizeなどのベンチマークデータセットの実験では、RMTSが特性特異的スコアリングにおいて最先端のモデルとバニラS-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2024-10-18T06:35:17Z) - Hierarchical Indexing for Retrieval-Augmented Opinion Summarization [60.5923941324953]
本稿では,抽出アプローチの帰属性と拡張性と,大規模言語モデル(LLM)の一貫性と拡散性を組み合わせた,教師なし抽象的意見要約手法を提案する。
我々の方法であるHIROは、意味的に整理された離散的な階層を通して文を経路にマッピングするインデックス構造を学習する。
推測時にインデックスを投入し、入力レビューから人気意見を含む文群を識別し、検索する。
論文 参考訳(メタデータ) (2024-03-01T10:38:07Z) - ED-FAITH: Evaluating Dialogue Summarization on Faithfulness [35.73012379398233]
まず,対話要約のための忠実度尺度の体系的研究を行った。
我々は,ほとんどの指標が,ニュースデータセットでよく機能しているにもかかわらず,人間の判断と相関が低いことを観察した。
忠実度評価のための新しい尺度T0-Scoreを提案する。
論文 参考訳(メタデータ) (2022-11-15T19:33:50Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。