論文の概要: Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization
- arxiv url: http://arxiv.org/abs/2507.02145v1
- Date: Wed, 02 Jul 2025 21:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.18408
- Title: Reasoning or Not? A Comprehensive Evaluation of Reasoning LLMs for Dialogue Summarization
- Title(参考訳): 推論か否か?対話要約のための推論LDMの総合的評価
- Authors: Keyan Jin, Yapeng Wang, Leonel Santos, Tao Fang, Xu Yang, Sio Kei Im, Hugo Gonçalo Oliveira,
- Abstract要約: 本報告では, 最先端の推論LDMと非推論LDMの総合的, 体系的評価について述べる。
他の推論集約的なタスクの傾向とは対照的に、明示的な段階的推論は対話の要約品質を常に改善しない。
- 参考スコア(独自算出の注目度): 9.994839971567542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue summarization is a challenging task with significant practical value in customer service, meeting analysis, and conversational AI. Although large language models (LLMs) have achieved substantial progress in summarization tasks, the performance of step-by-step reasoning architectures-specifically Long Chain-of-Thought (CoT) implementations such as OpenAI-o1 and DeepSeek-R1-remains unexplored for dialogue scenarios requiring concurrent abstraction and conciseness. In this work, we present the first comprehensive and systematic evaluation of state-of-the-art reasoning LLMs and non-reasoning LLMs across three major paradigms-generic, role-oriented, and query-oriented dialogue summarization. Our study spans diverse languages, domains, and summary lengths, leveraging strong benchmarks (SAMSum, DialogSum, CSDS, and QMSum) and advanced evaluation protocols that include both LLM-based automatic metrics and human-inspired criteria. Contrary to trends in other reasoning-intensive tasks, our findings show that explicit stepwise reasoning does not consistently improve dialogue summarization quality. Instead, reasoning LLMs are often prone to verbosity, factual inconsistencies, and less concise summaries compared to their non-reasoning counterparts. Through scenario-specific analyses and detailed case studies, we further identify when and why explicit reasoning may fail to benefit-or even hinder-summarization in complex dialogue contexts. Our work provides new insights into the limitations of current reasoning LLMs and highlights the need for targeted modeling and evaluation strategies for real-world dialogue summarization.
- Abstract(参考訳): 対話要約は、カスタマーサービス、ミーティング分析、会話AIにおいて重要な実践的価値を持つ難しいタスクである。
大規模な言語モデル(LLM)は、要約タスクにおいてかなりの進歩を遂げているが、ステップバイステップの推論アーキテクチャ、特にOpenAI-o1やDeepSeek-R1のようなロングチェーン(CoT)実装のパフォーマンスは、同時抽象化と簡潔さを必要とする対話シナリオのために未検討のままである。
本研究では,3つの主要なパラダイム(ジェネリック,ロール指向,クエリ指向の対話要約)にまたがる,最先端の推論LDMと非推論LDMの総合的,体系的評価を行う。
本研究は,強力なベンチマーク(SAMSum, DialogSum, CSDS, QMSum)とLCMに基づく自動測定と人為的基準の両方を含む高度な評価プロトコルを利用して,多様な言語, ドメイン, 要約長にまたがる。
他の推論集約的なタスクの傾向とは対照的に、明示的な段階的推論は対話の要約品質を常に改善しない。
代わりに、LLMの推論は、しばしば冗長性、事実的矛盾、簡潔な要約が非合理的なものに比べて少ない傾向にある。
シナリオ固有の分析と詳細なケーススタディを通じて、複雑な対話の文脈において、明示的推論がいつ、なぜ利益を得られないのか、あるいは、たとえ終末化を妨げているのかをさらに特定する。
我々の研究は,LLMの制約に対する新たな洞察を提供し,現実の対話要約のためのターゲットモデリングと評価戦略の必要性を強調している。
関連論文リスト
- What are they talking about? Benchmarking Large Language Models for Knowledge-Grounded Discussion Summarization [19.616500850017363]
本研究の目的は,既存の対話要約システムにおける外部オブザーバの混乱の限界に対処することである。
タスク出力を背景と意見の要約としてモデル化し、2つの標準化された要約パターンを定義する。
我々は,構造化プロンプトおよび自己回帰パラダイムの下で12個のLDMを評価した。
論文 参考訳(メタデータ) (2025-05-18T15:52:24Z) - DialogueReason: Rule-Based RL Sparks Dialogue Reasoning in LLMs [54.4857963044859]
本稿では,モノローグ型推論モデルにおける失われた役割を明らかにする推論パラダイムであるDialogueReasonを提案する。
本研究は,モノログ推論パターンの分析と対話に基づく推論手法の開発から成っている。
論文 参考訳(メタデータ) (2025-05-11T16:39:58Z) - Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1) [66.51642638034822]
推論は人間の知性の中心であり、多様なタスクにまたがる構造化された問題解決を可能にする。
大規模言語モデル(LLM)の最近の進歩は、算術、常識、記号領域における推論能力を大幅に向上させてきた。
本稿では,テキストおよびマルチモーダルLLMにおける推論手法の簡潔かつ洞察に富んだ概要について述べる。
論文 参考訳(メタデータ) (2025-04-04T04:04:56Z) - Are LLMs Effective Negotiators? Systematic Evaluation of the Multifaceted Capabilities of LLMs in Negotiation Dialogues [4.738985706520995]
本研究の目的は,多様な対話シナリオにまたがるLLMの多面的特徴を体系的に解析することである。
本分析では,GPT-4の課題を特定しながら,多くのタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-21T06:11:03Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Improving Large Language Models in Event Relation Logical Prediction [33.88499005859982]
イベント関係抽出は、綿密な意味的理解と厳密な論理的推論を必要とする課題である。
本稿では,イベント関連論理の理解と適用におけるLLMの能力について,詳細な調査を行う。
本研究により,LLMは論理的に一貫した推論子ではないことが明らかとなった。
論文 参考訳(メタデータ) (2023-10-13T14:53:06Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Re-Reading Improves Reasoning in Large Language Models [87.46256176508376]
既成のLarge Language Models (LLM) の推論能力を高めるため, 単純で汎用的で効果的なプロンプト手法であるRe2を導入する。
CoT (Chain-of-Thought) など、ほとんどの思考を刺激する手法とは異なり、Re2 は質問を2回処理することで入力に焦点を移し、理解プロセスを強化する。
提案手法の有効性と汎用性を検証するため,14のデータセットにまたがる広範囲な推論ベンチマークでRe2を評価した。
論文 参考訳(メタデータ) (2023-09-12T14:36:23Z) - Simple LLM Prompting is State-of-the-Art for Robust and Multilingual
Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。
実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文 参考訳(メタデータ) (2023-08-31T15:19:28Z) - Prompting and Evaluating Large Language Models for Proactive Dialogues:
Clarification, Target-guided, and Non-collaboration [72.04629217161656]
本研究は, 明瞭化, 目標誘導, 非協調対話の3つの側面に焦点をあてる。
LLMの能動性を高めるために,プロアクティブ・チェーン・オブ・ソート・プロンプト方式を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:49:35Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。