論文の概要: What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition
- arxiv url: http://arxiv.org/abs/2107.02294v1
- Date: Mon, 5 Jul 2021 21:56:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-07 13:50:39.487471
- Title: What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition
- Title(参考訳): トランスフォーマーは会話構造を認識するか?
対話行為認識における文脈・句読点・ラベルの重要性
- Authors: Piotr \.Zelasko, Raghavendra Pappagari, Najim Dehak
- Abstract要約: 2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
- 参考スコア(独自算出の注目度): 41.1669799542627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialog acts can be interpreted as the atomic units of a conversation, more
fine-grained than utterances, characterized by a specific communicative
function. The ability to structure a conversational transcript as a sequence of
dialog acts -- dialog act recognition, including the segmentation -- is
critical for understanding dialog. We apply two pre-trained transformer models,
XLNet and Longformer, to this task in English and achieve strong results on
Switchboard Dialog Act and Meeting Recorder Dialog Act corpora with dialog act
segmentation error rates (DSER) of 8.4% and 14.2%. To understand the key
factors affecting dialog act recognition, we perform a comparative analysis of
models trained under different conditions. We find that the inclusion of a
broader conversational context helps disambiguate many dialog act classes,
especially those infrequent in the training data. The presence of punctuation
in the transcripts has a massive effect on the models' performance, and a
detailed analysis reveals specific segmentation patterns observed in its
absence. Finally, we find that the label set specificity does not affect dialog
act segmentation performance. These findings have significant practical
implications for spoken language understanding applications that depend heavily
on a good-quality segmentation being available.
- Abstract(参考訳): ダイアログの動作は会話の原子単位と解釈することができ、特定のコミュニケーション機能によって特徴づけられる発声よりもきめ細かいものである。
ダイアログのシーケンスとして会話の書き起こしを構造化する能力 -- セグメンテーションを含むダイアログアクト認識 -- は、ダイアログを理解する上で不可欠である。
本稿では,XLNetとLongformerという2つの事前学習型トランスフォーマーモデルを適用し,Switchboard Dialog Act と Meeting Recorder Dialog Act corpora において8.4%,14.2%のダイアログアクトセグメンテーション誤り率(DSER)で強い結果を得た。
対話行動認識に影響を及ぼす要因を理解するために,異なる条件下で訓練されたモデルの比較分析を行った。
我々は、より広い会話コンテキストを含めることで、多くのダイアログアクトクラス、特にトレーニングデータに乏しいクラスを曖昧にすることができることを見出した。
転写文中の句読点の存在はモデルの性能に大きな影響を及ぼし、詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
最後に,ラベルセットの特異性はダイアログアクトセグメンテーション性能に影響を与えないことがわかった。
これらの知見は,高品質なセグメンテーションに大きく依存する音声言語理解アプリケーションに重要な意味を持つ。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - SuperDialseg: A Large-scale Dataset for Supervised Dialogue Segmentation [55.82577086422923]
文書地上対話の助けを借りて,対話のセグメンテーションポイントを実現可能な定義を提供する。
我々は,9,478の対話を含むSuperDialsegと呼ばれる大規模教師付きデータセットをリリースする。
また、対話セグメンテーションタスクの5つのカテゴリにまたがる18のモデルを含むベンチマークも提供する。
論文 参考訳(メタデータ) (2023-05-15T06:08:01Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - DialogueBERT: A Self-Supervised Learning based Dialogue Pre-training
Encoder [19.51263716065853]
本稿では,人気のある事前学習型言語モデルBERTに基づく新しい文脈対話エンコーダ(ダイアログBERT)を提案する。
5つの自己教師型学習事前学習課題が,対話音声の特異性を学習するために考案された。
DialogueBERTは、実シナリオで7000万の対話で事前訓練され、3つの異なる下流対話理解タスクで微調整された。
論文 参考訳(メタデータ) (2021-09-22T01:41:28Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - Interview: A Large-Scale Open-Source Corpus of Media Dialog [11.28504775964698]
本稿では,ニュースインタビューの書き起こしから収集した大規模(105Kの会話)メディアダイアログデータセット「Interview」を紹介する。
既存の会話データに対する大規模プロキシと比較して、我々のデータセットでトレーニングされた言語モデルは、ドメイン外のゼロショットのパフォーマンスが向上する。
「インタービュー」には各ターンの話者ロールアノテーションが含まれており、エンゲージメント・レスポンシブ・ダイアログシステムの開発を容易にする。
論文 参考訳(メタデータ) (2020-04-07T02:44:50Z) - Local Contextual Attention with Hierarchical Structure for Dialogue Act
Recognition [14.81680798372891]
我々は,自己意図に基づく階層モデルを構築し,文内および文間情報をキャプチャする。
ダイアログの長さがパフォーマンスに影響することから,新たなダイアログセグメンテーション機構を導入する。
論文 参考訳(メタデータ) (2020-03-12T22:26:11Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。