論文の概要: SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation
- arxiv url: http://arxiv.org/abs/2305.08371v2
- Date: Sun, 15 Oct 2023 15:03:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 05:18:18.505111
- Title: SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation
- Title(参考訳): superdialseg:教師付き対話セグメンテーションのための大規模データセット
- Authors: Junfeng Jiang, Chengzhang Dong, Sadao Kurohashi, Akiko Aizawa
- Abstract要約: 文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
- 参考スコア(独自算出の注目度): 55.82577086422923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue segmentation is a crucial task for dialogue systems allowing a
better understanding of conversational texts. Despite recent progress in
unsupervised dialogue segmentation methods, their performances are limited by
the lack of explicit supervised signals for training. Furthermore, the precise
definition of segmentation points in conversations still remains as a
challenging problem, increasing the difficulty of collecting manual
annotations. In this paper, we provide a feasible definition of dialogue
segmentation points with the help of document-grounded dialogues and release a
large-scale supervised dataset called SuperDialseg, containing 9,478 dialogues
based on two prevalent document-grounded dialogue corpora, and also inherit
their useful dialogue-related annotations. Moreover, we provide a benchmark
including 18 models across five categories for the dialogue segmentation task
with several proper evaluation metrics. Empirical studies show that supervised
learning is extremely effective in in-domain datasets and models trained on
SuperDialseg can achieve good generalization ability on out-of-domain data.
Additionally, we also conducted human verification on the test set and the
Kappa score confirmed the quality of our automatically constructed dataset. We
believe our work is an important step forward in the field of dialogue
segmentation. Our codes and data can be found from:
https://github.com/Coldog2333/SuperDialseg.
- Abstract(参考訳): 対話セグメンテーションは対話システムにとって重要な課題であり、会話テキストの理解を深める。
教師なし対話のセグメンテーション手法が近年進歩しているにもかかわらず、その性能は訓練のための明示的な教師付き信号の欠如によって制限されている。
さらに、会話におけるセグメンテーションポイントの正確な定義は依然として困難な問題であり、手作業によるアノテーションの収集が困難になる。
本稿では,2つの対話コーパスに基づく9,478の対話を含むsuperdialsegと呼ばれる大規模教師付きデータセットをリリースし,その有用な対話関連アノテーションを継承することで,対話セグメンテーションポイントを実現可能な定義を行う。
さらに,対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークを,いくつかの適切な評価指標で提供する。
実証的研究により、教師付き学習はドメイン内データセットやSuperDialsegでトレーニングされたモデルに極めて効果的であることが示され、ドメイン外のデータに対して優れた一般化能力が得られる。
また,テストセット上で人間による検証を行い,Kappaスコアから自動構築したデータセットの品質を確認した。
私たちの仕事は対話セグメンテーションの分野で重要な一歩だと信じています。
私たちのコードとデータは、https://github.com/Coldog2333/SuperDialsegから参照できます。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Unsupervised Dialogue Topic Segmentation with Topic-aware Utterance
Representation [51.22712675266523]
対話トピック(DTS)は、様々な対話モデリングタスクにおいて重要な役割を果たす。
本稿では,ラベルなし対話データからトピック対応発話表現を学習する,教師なしDSSフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-04T11:35:23Z) - CTRLStruct: Dialogue Structure Learning for Open-Domain Response
Generation [38.60073402817218]
十分に構造化されたトピックフローは、バックグラウンド情報を活用し、将来のトピックを予測することで、制御可能で説明可能な応答を生成する。
本稿では,話題レベルの対話クラスタを効果的に探索する対話構造学習のための新しいフレームワークを提案する。
2つの人気のあるオープンドメイン対話データセットの実験は、優れた対話モデルと比較して、我々のモデルはより一貫性のある応答を生成できることを示している。
論文 参考訳(メタデータ) (2023-03-02T09:27:11Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - FlowEval: A Consensus-Based Dialogue Evaluation Framework Using Segment
Act Flows [63.116280145770006]
本稿では,音声レベルからセグメントレベルへのダイアログ行為の拡張であるセグメントアクトを提案し,大規模データセットをクラウドソースする。
セグメントアクトフローを利用するために,セグメントアクションのシーケンスを評価のために,最初のコンセンサスに基づく対話評価フレームワークであるFlowEvalを開発した。
論文 参考訳(メタデータ) (2022-02-14T11:37:20Z) - What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition [41.1669799542627]
2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
論文 参考訳(メタデータ) (2021-07-05T21:56:00Z) - RiSAWOZ: A Large-Scale Multi-Domain Wizard-of-Oz Dataset with Rich
Semantic Annotations for Task-Oriented Dialogue Modeling [35.75880078666584]
RiSAWOZ は、Rich Semantic s を用いた大規模マルチドメインの Chinese Wizard-of-Oz データセットである。
11.2Kのヒューマン・ツー・ヒューマン(H2H)マルチターン・アノテート・ダイアログを含み、12ドメインにまたがる150K以上の発話がある。
論文 参考訳(メタデータ) (2020-10-17T08:18:59Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。