論文の概要: Towards End-to-End Integration of Dialog History for Improved Spoken
Language Understanding
- arxiv url: http://arxiv.org/abs/2204.05169v1
- Date: Mon, 11 Apr 2022 14:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 20:42:50.552875
- Title: Towards End-to-End Integration of Dialog History for Improved Spoken
Language Understanding
- Title(参考訳): 音声言語理解のための対話履歴のエンドツーエンド統合に向けて
- Authors: Vishal Sunder, Samuel Thomas, Hong-Kwang J. Kuo, Jatin Ganhotra, Brian
Kingsbury, Eric Fosler-Lussier
- Abstract要約: これまでの作業では、ダイアログ履歴をテキスト形式で使用しており、ケースド自動音声認識(ASR)に依存するモデルとなっている。
本稿では,対話履歴を直接音声形式で活用できる階層型会話モデルを提案する。
また,E2E方式でダイアログ履歴を追加することで得られる長いトレーニング時間をDropFrameと呼ぶ新しい手法を提案する。
- 参考スコア(独自算出の注目度): 30.171176651191733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dialog history plays an important role in spoken language understanding (SLU)
performance in a dialog system. For end-to-end (E2E) SLU, previous work has
used dialog history in text form, which makes the model dependent on a cascaded
automatic speech recognizer (ASR). This rescinds the benefits of an E2E system
which is intended to be compact and robust to ASR errors. In this paper, we
propose a hierarchical conversation model that is capable of directly using
dialog history in speech form, making it fully E2E. We also distill semantic
knowledge from the available gold conversation transcripts by jointly training
a similar text-based conversation model with an explicit tying of acoustic and
semantic embeddings. We also propose a novel technique that we call DropFrame
to deal with the long training time incurred by adding dialog history in an E2E
manner. On the HarperValleyBank dialog dataset, our E2E history integration
outperforms a history independent baseline by 7.7% absolute F1 score on the
task of dialog action recognition. Our model performs competitively with the
state-of-the-art history based cascaded baseline, but uses 48% fewer
parameters. In the absence of gold transcripts to fine-tune an ASR model, our
model outperforms this baseline by a significant margin of 10% absolute F1
score.
- Abstract(参考訳): 対話システムにおける音声言語理解(SLU)のパフォーマンスにおいて,対話履歴は重要な役割を果たす。
e2e(end-to-end) sluでは、以前の作業ではテキスト形式のダイアログ履歴を使用しており、これはモデルがカスケードされた自動音声認識(asr)に依存している。
これにより、ASRエラーに対してコンパクトで堅牢なE2Eシステムの利点が取り除かれる。
本稿では,対話履歴を音声形式で直接使用することが可能な階層的会話モデルを提案する。
また、類似したテキストベースの会話モデルと音響および意味的埋め込みの明示的な結びつきを共同で訓練することにより、利用可能な金の会話文から意味知識を抽出する。
また,e2e方式でダイアログ履歴を追加することで,長いトレーニング時間に対処するためにdropframeと呼ぶ新しい手法を提案する。
harpervalleybankダイアログデータセットでは、e2e履歴統合は、ダイアログアクション認識のタスクにおいて、履歴独立ベースラインを7.7%絶対f1スコアで上回っています。
我々のモデルは最先端の履歴に基づくカスケードベースラインと競合するが、パラメータは48%少ない。
ASRモデルを微調整するための金の転写文字が存在しないため、我々のモデルは10%の絶対F1スコアでこのベースラインを上回ります。
関連論文リスト
- Joint Modelling of Spoken Language Understanding Tasks with Integrated
Dialog History [30.20353302347147]
本研究では,発話の意図,対話行動,話者の役割,感情を共同で予測するために,対話コンテキストを学習する新しいモデルアーキテクチャを提案する。
本実験は,タスク固有分類器と類似した結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-01T16:26:18Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Dialogue Summaries as Dialogue States (DS2), Template-Guided
Summarization for Few-shot Dialogue State Tracking [16.07100713414678]
DST(Few-shot dialogue state tracking)は、この問題に対する現実的な解決策である。
本稿では,対話状態追跡を対話要約問題として再検討する。
論文 参考訳(メタデータ) (2022-03-03T07:54:09Z) - Attentive Contextual Carryover for Multi-Turn End-to-End Spoken Language
Understanding [14.157311972146692]
本稿では,先行発話と対話動作を符号化したマルチヘッドアテンション機構を用いた文脈的E2E SLUモデルアーキテクチャを提案する。
本手法は,平均単語と意味的誤り率をそれぞれ10.8%,12.6%削減する。
論文 参考訳(メタデータ) (2021-12-13T15:49:36Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Integrating Dialog History into End-to-End Spoken Language Understanding
Systems [37.08876551722831]
対話履歴の重要性と、それをエンドツーエンドの音声言語理解システムに効果的に組み込む方法について検討する。
音声音声を処理しながら,提案したRNNトランスデューサ(RNN-T)に基づくSLUモデルでは,そのダイアログ履歴を復号化文字とSLUラベルの形式でアクセスすることができる。
我々は最近リリースされた音声対話データセットであるHarperValleyBank corpusに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-08-18T22:24:11Z) - The Adapter-Bot: All-In-One Controllable Conversational Model [66.48164003532484]
本稿では、DialGPTなどの固定バックボーンモデルを用いて、異なるアダプタを介してオンデマンド対話スキルをトリガーする対話モデルを提案する。
スキルに応じて、モデルはテキスト、テーブル、強調応答などの複数の知識タイプを処理できる。
我々は,既存の会話モデルと比較し,自動評価を用いたモデルの評価を行った。
論文 参考訳(メタデータ) (2020-08-28T10:59:31Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。