論文の概要: SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation
- arxiv url: http://arxiv.org/abs/2305.08371v1
- Date: Mon, 15 May 2023 06:08:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 16:01:53.266390
- Title: SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation
- Title(参考訳): superdialseg:教師付き対話セグメンテーションのための大規模データセット
- Authors: Junfeng Jiang, Chengzhang Dong, Akiko Aizawa, Sadao Kurohashi
- Abstract要約: 文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
9K対話を含む大規模な教師付きデータセットであるSuperDialsegをリリースする。
対話特性を利用する2つのモデルを提案し,SuperDialseg上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 43.0102704375643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue segmentation is a crucial task for dialogue systems allowing a
better understanding of conversational texts. Despite recent progress in
unsupervised dialogue segmentation methods, their performances are limited by
the lack of explicit supervised signals for training. Furthermore, the precise
definition of segmentation points in conversations still remains as a
challenging problem, increasing the difficulty of collecting manual
annotations. In this paper, we provide a feasible definition of dialogue
segmentation points with the help of document-grounded dialogues and release a
large-scale supervised dataset called SuperDialseg, containing 9K dialogues
based on two prevalent document-grounded dialogue corpora, and also inherit
their useful dialogue-related annotations. Moreover, we propose two models to
exploit the dialogue characteristics, achieving state-of-the-art performance on
SuperDialseg and showing good generalization ability on the out-of-domain
datasets. Additionally, we provide a benchmark including 20 models across four
categories for the dialogue segmentation task with several proper evaluation
metrics. Based on the analysis of the empirical studies, we also provide some
insights for the task of dialogue segmentation. We believe our work is an
important step forward in the field of dialogue segmentation.
- Abstract(参考訳): 対話セグメンテーションは対話システムにとって重要な課題であり、会話テキストの理解を深める。
教師なし対話のセグメンテーション手法が近年進歩しているにもかかわらず、その性能は訓練のための明示的な教師付き信号の欠如によって制限されている。
さらに、会話におけるセグメンテーションポイントの正確な定義は依然として困難な問題であり、手作業によるアノテーションの収集が困難になる。
本稿では,2つの文書地上対話コーパスに基づく9K対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットを作成した上で,その有用な対話関連アノテーションを継承し,対話セグメンテーションポイントの具体的定義を提案する。
さらに,対話の特徴を生かした2つのモデルを提案し,スーパーディアルセグで最先端のパフォーマンスを実現し,ドメイン外データセットで優れた一般化能力を示す。
さらに,対話セグメンテーションタスクの4つのカテゴリにまたがる20のモデルを含むベンチマークを,いくつかの適切な評価指標で提供する。
経験的研究の分析に基づき,対話セグメンテーションの課題に対する洞察も提供する。
私たちの仕事は対話セグメンテーションの分野で重要な一歩だと信じています。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - CTRLStruct: Dialogue Structure Learning for Open-Domain Response
Generation [38.60073402817218]
十分に構造化されたトピックフローは、バックグラウンド情報を活用し、将来のトピックを予測することで、制御可能で説明可能な応答を生成する。
本稿では,話題レベルの対話クラスタを効果的に探索する対話構造学習のための新しいフレームワークを提案する。
2つの人気のあるオープンドメイン対話データセットの実験は、優れた対話モデルと比較して、我々のモデルはより一貫性のある応答を生成できることを示している。
論文 参考訳(メタデータ) (2023-03-02T09:27:11Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition [41.1669799542627]
2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
論文 参考訳(メタデータ) (2021-07-05T21:56:00Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。