論文の概要: DialogSum Challenge: Results of the Dialogue Summarization Shared Task
- arxiv url: http://arxiv.org/abs/2208.03898v2
- Date: Tue, 9 Aug 2022 02:28:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 10:27:11.249485
- Title: DialogSum Challenge: Results of the Dialogue Summarization Shared Task
- Title(参考訳): 対話要約課題:対話要約共有課題の結果
- Authors: Yulong Chen, Naihao Deng, Yang Liu, Yue Zhang
- Abstract要約: 我々は,INLG 2022における実生活シナリオ対話の要約作業であるDialogSum Challengeの結果を報告する。
複数の側面から人による評価により, モデル生成出力と人間の注釈付き要約との間には, 健全なギャップがあることが判明した。
これらの結果は,対話要約の難しさを示し,よりきめ細かい評価指標が必要であることを示唆している。
- 参考スコア(独自算出の注目度): 15.791481299499537
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We report the results of DialogSum Challenge, the shared task on summarizing
real-life scenario dialogues at INLG 2022. Four teams participate in this
shared task and three submit their system reports, exploring different methods
to improve the performance of dialogue summarization. Although there is a great
improvement over the baseline models regarding automatic evaluation metrics,
such as Rouge scores, we find that there is a salient gap between model
generated outputs and human annotated summaries by human evaluation from
multiple aspects. These findings demonstrate the difficulty of dialogue
summarization and suggest that more fine-grained evaluatuion metrics are in
need.
- Abstract(参考訳): 我々は,INLG 2022における実生活シナリオ対話の要約作業であるDialogSum Challengeの結果を報告する。
4つのチームがこの共有タスクに参加し、3つのチームがシステムレポートを提出し、対話要約のパフォーマンスを改善するためのさまざまな方法を模索します。
ルージュスコアなどの自動評価指標に関するベースラインモデルに対して大きな改善が見られたが、複数の側面からの評価により、モデル生成出力と人間の注釈付き要約との間に有意なギャップがあることが判明した。
これらの結果は,対話要約の難しさを示し,よりきめ細かい評価指標が必要であることを示唆している。
関連論文リスト
- Increasing faithfulness in human-human dialog summarization with Spoken Language Understanding tasks [0.0]
本稿では,タスク関連情報を組み込むことによって,要約処理の促進を図ることを提案する。
その結果,タスク関連情報とモデルを統合することで,単語の誤り率が異なる場合でも要約精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:15:35Z) - ComperDial: Commonsense Persona-grounded Dialogue Dataset and Benchmark [26.100299485985197]
ComperDialは、99の対話エージェントから収集された1,485の会話において、10,395の対話ターンのための人間による応答で構成されている。
シングルターン応答スコアに加えて、ComperDialには対話レベルの人間注釈スコアも含まれている。
ComperDialから構築した新しい自動評価尺度は、人間の会話に対するモデル生成対話の一般的な類似度を測定する。
論文 参考訳(メタデータ) (2024-06-17T05:51:04Z) - CADS: A Systematic Literature Review on the Challenges of Abstractive Dialogue Summarization [7.234196390284036]
本稿では、英語対話におけるトランスフォーマーに基づく抽象要約に関する研究を要約する。
ダイアログ要約における主な課題(言語、構造、理解、話者、サリエンス、事実)をカバーします。
言語などいくつかの課題がかなりの進歩を遂げているのに対して、理解、事実性、サリエンスといった課題は依然として困難であり、重要な研究機会を持っている。
論文 参考訳(メタデータ) (2024-06-11T17:30:22Z) - Long Dialog Summarization: An Analysis [28.223798877781054]
この研究は、様々なアプリケーションにおける効果的なコミュニケーションのために、一貫性と文脈的に豊かな要約を作成することの重要性を強調している。
異なる領域における長いダイアログの要約に対する現在の最先端のアプローチについて検討し、ベンチマークに基づく評価により、異なる要約タスクのために、各領域で1つのモデルがうまく機能しないことを示す。
論文 参考訳(メタデータ) (2024-02-26T19:35:45Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - Instructive Dialogue Summarization with Query Aggregations [41.89962538701501]
本稿では,対話要約モデルの能力集合を拡張するために,命令精細言語モデルを提案する。
高品質なクエリベースの要約三重項を合成するための3段階のアプローチを提案する。
多目的インストラクティブトリプルを用いた3つの要約データセット上で、InstructDSと呼ばれる統一モデルをトレーニングすることにより、対話要約モデルの能力を拡大する。
論文 参考訳(メタデータ) (2023-10-17T04:03:00Z) - Self-Explanation Prompting Improves Dialogue Understanding in Large
Language Models [52.24756457516834]
大規模言語モデル(LLM)の理解能力を高めるための新たな「自己説明(Self-Explanation)」を提案する。
このタスクに依存しないアプローチでは、タスク実行前の各対話発話を分析し、様々な対話中心のタスクのパフォーマンスを向上させる必要がある。
6つのベンチマークデータセットによる実験結果から,本手法は他のゼロショットプロンプトよりも一貫して優れており,数ショットプロンプトの有効性を超えていることが明らかとなった。
論文 参考訳(メタデータ) (2023-09-22T15:41:34Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Is this Dialogue Coherent? Learning from Dialogue Acts and Entities [82.44143808977209]
スイッチボード・コヒーレンス・コーパス(SWBD-Coh)コーパス(Switchboard Coherence corpus,SWBD-Coh)を作成する。
コーパスの統計的分析は、ターンコヒーレンス知覚がエンティティの分布パターンによってどのように影響を受けるかを示している。
DA情報とエンティティ情報を組み合わせたモデルでは,応答選択とターンコヒーレンス評価の両面で最高の性能が得られることがわかった。
論文 参考訳(メタデータ) (2020-06-17T21:02:40Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。