論文の概要: DIAL-SUMMER: A Structured Evaluation Framework of Hierarchical Errors in Dialogue Summaries
- arxiv url: http://arxiv.org/abs/2602.08149v1
- Date: Sun, 08 Feb 2026 22:46:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.000641
- Title: DIAL-SUMMER: A Structured Evaluation Framework of Hierarchical Errors in Dialogue Summaries
- Title(参考訳): 対話要約における階層的誤りの構造化評価フレームワークDial-SUMMER
- Authors: Sahana Ramnath, Nima Chitsazan, Mingyang Zhou, Chia-Hsuan Lee, Shi-Xiong Zhang, Stephen Rawls, Sambit Sahu, Sangwoo Cho, Xiang Ren, Genta Indra Winata, Akshaj Kumar Veldanda,
- Abstract要約: 対話要約評価に関する先行研究は、この課題に特有の複雑さをほとんど無視している。
対話要約を包括的に評価するために,DIAL-SUMMERの誤り分類法を提案する。
我々はこれらの注釈付き誤りを実証分析し、興味深い傾向を観察する。
- 参考スコア(独自算出の注目度): 34.92030460585731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialogues are a predominant mode of communication for humans, and it is immensely helpful to have automatically generated summaries of them (e.g., to revise key points discussed in a meeting, to review conversations between customer agents and product users). Prior works on dialogue summary evaluation largely ignore the complexities specific to this task: (i) shift in structure, from multiple speakers discussing information in a scattered fashion across several turns, to a summary's sentences, and (ii) shift in narration viewpoint, from speakers' first/second-person narration, standardized third-person narration in the summary. In this work, we introduce our framework DIALSUMMER to address the above. We propose DIAL-SUMMER's taxonomy of errors to comprehensively evaluate dialogue summaries at two hierarchical levels: DIALOGUE-LEVEL that focuses on the broader speakers/turns, and WITHIN-TURN-LEVEL that focuses on the information talked about inside a turn. We then present DIAL-SUMMER's dataset composed of dialogue summaries manually annotated with our taxonomy's fine-grained errors. We conduct empirical analyses of these annotated errors, and observe interesting trends (e.g., turns occurring in middle of the dialogue are the most frequently missed in the summary, extrinsic hallucinations largely occur at the end of the summary). We also conduct experiments on LLM-Judges' capability at detecting these errors, through which we demonstrate the challenging nature of our dataset, the robustness of our taxonomy, and the need for future work in this field to enhance LLMs' performance in the same. Code and inference dataset coming soon.
- Abstract(参考訳): 対話は人間にとって主要なコミュニケーション手段であり、それらの要約を自動的に生成する(例えば、ミーティングで議論された重要なポイントを改訂し、顧客エージェントと製品ユーザ間の会話をレビューする)ことは非常に有益である。
対話要約評価に関する先行研究は、この課題に特有の複雑さを無視している。
一 複数回にわたって情報の分散を議論する複数の話者から要約文への構造変化
(II) ナレーション視点の変化は, 話者の1対2のナレーションから, 要約中の3対3のナレーションの標準化である。
本稿では,これらの課題に対処するためのフレームワークDIALSUMMERを紹介する。
本稿では,2つの階層レベルの対話要約を包括的に評価するために,DIAL-SUMMERの誤り分類法を提案する。
そこで我々はDIAL-SUMMERのデータセットを,我々の分類のきめ細かい誤りを手作業で注釈付けした対話要約から作成する。
我々はこれらの注釈付き誤りを実証分析し、興味深い傾向を観察する(例えば、対話の途中で発生する旋回は、要約の最後に最も多く見逃されるが、外因性幻覚は概ね要約の最後に起こる)。
また,これらの誤りを検知するLLM-Judgesの能力について実験を行い,データセットの難易度,分類学の堅牢性,LLMの性能を高めるための今後の研究の必要性を実証した。
コードと推論データセットが近く公開される。
関連論文リスト
- On Mitigating Data Sparsity in Conversational Recommender Systems [69.70761335240738]
会話レコメンデータシステム(CRS)は、対話中のテキスト情報を通じてユーザの好みをキャプチャする。
対話空間は広大で言語的に多様であり、アイテム空間は長い尾とスパース分布を示す。
既存の手法では,(1)リッチテキストの活用による多様な対話表現の一般化,(2)重度の疎度下での情報表現の学習に苦慮している。
論文 参考訳(メタデータ) (2025-07-01T06:54:51Z) - Increasing faithfulness in human-human dialog summarization with Spoken Language Understanding tasks [0.0]
本稿では,タスク関連情報を組み込むことによって,要約処理の促進を図ることを提案する。
その結果,タスク関連情報とモデルを統合することで,単語の誤り率が異なる場合でも要約精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:15:35Z) - Instructive Dialogue Summarization with Query Aggregations [41.89962538701501]
本稿では,対話要約モデルの能力集合を拡張するために,命令精細言語モデルを提案する。
高品質なクエリベースの要約三重項を合成するための3段階のアプローチを提案する。
多目的インストラクティブトリプルを用いた3つの要約データセット上で、InstructDSと呼ばれる統一モデルをトレーニングすることにより、対話要約モデルの能力を拡大する。
論文 参考訳(メタデータ) (2023-10-17T04:03:00Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - CSDS: A Fine-grained Chinese Dataset for Customer Service Dialogue
Summarization [44.21084429627218]
CSDS (Customer Service Dialogue Summarization) のための新しい中国語データセットについて紹介する。
CSDSは,(1)対話全体の全体的要約に加えて,異なる話者の視点を得るための役割指向要約も提供する。
CSDSの様々な要約手法を比較し,実験結果から,既存の手法は冗長で一貫性の低い要約を生成する傾向にあることが示された。
論文 参考訳(メタデータ) (2021-08-30T11:56:58Z) - Controllable Abstractive Dialogue Summarization with Sketch Supervision [56.59357883827276]
本モデルは,最大50.79のROUGE-Lスコアを持つ最大対話要約コーパスSAMSumの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-05-28T19:05:36Z) - Multi-View Sequence-to-Sequence Models with Conversational Structure for
Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。
本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。
大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-04T20:12:44Z) - Unsupervised Abstractive Dialogue Summarization for Tete-a-Tetes [49.901984490961624]
テテ-ア-テト(SuTaT)のための非教師なし抽象的対話要約モデルを提案する。
SuTaTは条件付き生成モジュールと2つの教師なし要約モジュールからなる。
実験の結果,SuTaTは自動評価と人的評価の両方において教師なし対話要約よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-09-15T03:27:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。