論文の概要: Hierarchical Pre-training for Sequence Labelling in Spoken Dialog
- arxiv url: http://arxiv.org/abs/2009.11152v3
- Date: Mon, 8 Feb 2021 13:49:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:16:00.571995
- Title: Hierarchical Pre-training for Sequence Labelling in Spoken Dialog
- Title(参考訳): 音声対話におけるシーケンスラベリングのための階層的事前学習
- Authors: Emile Chapuis and Pierre Colombo, Matteo Manica, Matthieu Labeau,
Chloe Clavel
- Abstract要約: 音声対話に適応した汎用表現を学習するための新しい手法を提案する。
変換器アーキテクチャに基づく階層エンコーダを用いて表現を得る。
プレトレーニングはOpenSubtitles(英語版)で行われ、2.3億ドル以上のトークンを含む対話ダイアログの大規模なコーパスである。
- 参考スコア(独自算出の注目度): 10.216901061363641
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence labelling tasks like Dialog Act and Emotion/Sentiment identification
are a key component of spoken dialog systems. In this work, we propose a new
approach to learn generic representations adapted to spoken dialog, which we
evaluate on a new benchmark we call Sequence labellIng evaLuatIon benChmark fOr
spoken laNguagE benchmark (\texttt{SILICONE}). \texttt{SILICONE} is
model-agnostic and contains 10 different datasets of various sizes. We obtain
our representations with a hierarchical encoder based on transformer
architectures, for which we extend two well-known pre-training objectives.
Pre-training is performed on OpenSubtitles: a large corpus of spoken dialog
containing over $2.3$ billion of tokens. We demonstrate how hierarchical
encoders achieve competitive results with consistently fewer parameters
compared to state-of-the-art models and we show their importance for both
pre-training and fine-tuning.
- Abstract(参考訳): ダイアログアクトや感情・感情識別といったシーケンスラベリングタスクは、音声対話システムの重要なコンポーネントである。
本研究では,音声対話に適応した汎用表現を学習するための新しいアプローチを提案する。これはSequence labellIng evaLuatIon benChmark fOr spoken laNguagE benchmark (\texttt{SILICONE})と呼ばれる新しいベンチマークで評価する。
\texttt{SILICONE}はモデルに依存しない、さまざまなサイズの10の異なるデータセットを含む。
我々はトランスフォーマーアーキテクチャに基づく階層型エンコーダで表現し、2つのよく知られた事前学習目標を拡張する。
事前トレーニングはopensubtitles: 230億ドル以上のトークンを含む音声対話の大規模なコーパスで実行される。
階層エンコーダが,最先端モデルと比較して常に少ないパラメータで競争結果を得る方法を示し,事前学習と微調整の両方においてその重要性を示す。
関連論文リスト
- TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Hierarchical Dialogue Understanding with Special Tokens and Turn-level
Attention [19.03781524017955]
単純だが効果的な階層的対話理解モデルHiDialogを提案する。
まず,複数の特別なトークンを対話に挿入し,階層的にターン埋め込みを学習するためのターンレベルアテンションを提案する。
我々は,対話関係抽出,対話感情認識,対話行為分類など,対話理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2023-04-29T13:53:48Z) - DIONYSUS: A Pre-trained Model for Low-Resource Dialogue Summarization [127.714919036388]
DIONYSUSは、任意の新しいドメインでの対話を要約するための訓練済みエンコーダデコーダモデルである。
実験の結果,DIONYSUSは6つのデータセット上で既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-20T06:21:21Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Structure Extraction in Task-Oriented Dialogues with Slot Clustering [94.27806592467537]
タスク指向対話では、対話構造はしばしば対話状態間の遷移グラフと見なされている。
本稿では,タスク指向対話における構造抽出のための簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T20:18:12Z) - GALAXY: A Generative Pre-trained Model for Task-Oriented Dialog with
Semi-Supervised Learning and Explicit Policy Injection [36.77204909711832]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから,対話ポリシーを明示的に学習する,事前学習型ダイアログモデルを提案する。
具体的には、事前学習中にポリシー最適化のためのダイアログアクト予測タスクを導入し、一貫性の規則化項を用いて、学習した表現を洗練させる。
その結果,GALAXYはタスク指向対話システムの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2021-11-29T15:24:36Z) - What Helps Transformers Recognize Conversational Structure? Importance
of Context, Punctuation, and Labels in Dialog Act Recognition [41.1669799542627]
2つの事前訓練されたトランスフォーマーモデルを適用し、対話行動のシーケンスとして会話文を構造化する。
より広範な会話コンテキストが組み込まれていることは、多くの対話行動クラスを曖昧にするのに役立ちます。
詳細な分析により、その欠如で観察された特定のセグメンテーションパターンが明らかになる。
論文 参考訳(メタデータ) (2021-07-05T21:56:00Z) - DialogBERT: Discourse-Aware Response Generation via Learning to Recover
and Rank Utterances [18.199473005335093]
本稿では,従来の PLM に基づく対話モデルを強化した対話応答生成モデルである DialogBERT を提案する。
発話間の談話レベルのコヒーレンスを効果的に把握するために,マスク付き発話回帰を含む2つの訓練目標を提案する。
3つのマルチターン会話データセットの実験により、我々のアプローチがベースラインを著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-03T09:06:23Z) - Variational Hierarchical Dialog Autoencoder for Dialog State Tracking
Data Augmentation [59.174903564894954]
本研究では,この手法を,ゴール指向対話のための対話状態追跡タスクに拡張する。
目的指向ダイアログの完全な側面をモデル化するための変分階層型ダイアログオートエンコーダ(VHDA)を提案する。
各種ダイアログデータセットを用いた実験により、生成データ拡張による下流ダイアログトラッカーのロバスト性の向上が示された。
論文 参考訳(メタデータ) (2020-01-23T15:34:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。