論文の概要: Joint Modelling of Spoken Language Understanding Tasks with Integrated
Dialog History
- arxiv url: http://arxiv.org/abs/2305.00926v1
- Date: Mon, 1 May 2023 16:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 12:44:23.644022
- Title: Joint Modelling of Spoken Language Understanding Tasks with Integrated
Dialog History
- Title(参考訳): 対話履歴を統合した音声言語理解タスクの協調モデリング
- Authors: Siddhant Arora, Hayato Futami, Emiru Tsunoo, Brian Yan, Shinji
Watanabe
- Abstract要約: 本研究では,発話の意図,対話行動,話者の役割,感情を共同で予測するために,対話コンテキストを学習する新しいモデルアーキテクチャを提案する。
本実験は,タスク固有分類器と類似した結果が得られることを示す。
- 参考スコア(独自算出の注目度): 30.20353302347147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most human interactions occur in the form of spoken conversations where the
semantic meaning of a given utterance depends on the context. Each utterance in
spoken conversation can be represented by many semantic and speaker attributes,
and there has been an interest in building Spoken Language Understanding (SLU)
systems for automatically predicting these attributes. Recent work has shown
that incorporating dialogue history can help advance SLU performance. However,
separate models are used for each SLU task, leading to an increase in inference
time and computation cost. Motivated by this, we aim to ask: can we jointly
model all the SLU tasks while incorporating context to facilitate low-latency
and lightweight inference? To answer this, we propose a novel model
architecture that learns dialog context to jointly predict the intent, dialog
act, speaker role, and emotion for the spoken utterance. Note that our joint
prediction is based on an autoregressive model and we need to decide the
prediction order of dialog attributes, which is not trivial. To mitigate the
issue, we also propose an order agnostic training method. Our experiments show
that our joint model achieves similar results to task-specific classifiers and
can effectively integrate dialog context to further improve the SLU
performance.
- Abstract(参考訳): ほとんどの人間の相互作用は、与えられた発話の意味的意味が文脈に依存する会話の形で起こる。
音声会話の各発話は、多くの意味的属性と話者属性で表現することができ、これらの属性を自動的に予測するための音声言語理解(SLU)システムの構築に関心がある。
近年の研究では,対話履歴を組み込むことで,SLUの性能向上が期待できる。
しかし、それぞれのSLUタスクに別々のモデルが使用され、推論時間と計算コストが増加する。
低レイテンシで軽量な推論を容易にするために、コンテキストを取り入れながら、すべてのSLUタスクを共同でモデル化できますか?
そこで本研究では,対話コンテキストを学習し,発話の意図,対話行為,話者の役割,感情を共同で予測する新しいモデルアーキテクチャを提案する。
我々の共同予測は自己回帰モデルに基づいており、簡単なものではないダイアログ属性の予測順序を決定する必要があることに注意してください。
また,問題を緩和するため,命令に依存しない訓練手法を提案する。
本実験は,タスク固有分類器と類似した結果が得られ,対話コンテキストを効果的に統合し,SLU性能をさらに向上することを示す。
関連論文リスト
- Increasing faithfulness in human-human dialog summarization with Spoken Language Understanding tasks [0.0]
本稿では,タスク関連情報を組み込むことによって,要約処理の促進を図ることを提案する。
その結果,タスク関連情報とモデルを統合することで,単語の誤り率が異なる場合でも要約精度が向上することがわかった。
論文 参考訳(メタデータ) (2024-09-16T08:15:35Z) - Integrating Paralinguistics in Speech-Empowered Large Language Models for Natural Conversation [46.93969003104427]
本稿では,広範な音声テキストLLMフレームワークである統一音声対話モデル(USDM)を紹介する。
USDMは、与えられた入力音声に関連する自然な韻律的特徴を持つコヒーレントな音声応答を生成するように設計されている。
提案手法は,従来のベースラインとカスケードベースラインを超越した自然な音声応答を効果的に生成する。
論文 参考訳(メタデータ) (2024-02-08T14:35:09Z) - Towards Joint Modeling of Dialogue Response and Speech Synthesis based
on Large Language Model [8.180382743037082]
本稿では,AI音声対話システムの構築の可能性について考察する。
論文 参考訳(メタデータ) (2023-09-20T01:48:27Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - SPACE-2: Tree-Structured Semi-Supervised Contrastive Pre-training for
Task-Oriented Dialog Understanding [68.94808536012371]
本稿では,限定ラベル付きダイアログと大規模未ラベルダイアログコーパスから対話表現を学習する,木構造付き事前学習会話モデルを提案する。
提案手法は,7つのデータセットと4つの一般的な対話理解タスクからなるDialoGLUEベンチマークにおいて,最新の結果が得られる。
論文 参考訳(メタデータ) (2022-09-14T13:42:50Z) - Adapting Task-Oriented Dialogue Models for Email Conversations [4.45709593827781]
本稿では,対話モデルの最新開発を長文会話に適用できる効果的な伝達学習フレームワーク(EMToD)を提案する。
提案するEMToDフレームワークは,事前学習した言語モデルに対する意図検出性能を45%向上し,タスク指向の電子メール会話において,事前学習した対話モデルに対する意図検出性能を30%向上することを示す。
論文 参考訳(メタデータ) (2022-08-19T16:41:34Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Integrating Dialog History into End-to-End Spoken Language Understanding
Systems [37.08876551722831]
対話履歴の重要性と、それをエンドツーエンドの音声言語理解システムに効果的に組み込む方法について検討する。
音声音声を処理しながら,提案したRNNトランスデューサ(RNN-T)に基づくSLUモデルでは,そのダイアログ履歴を復号化文字とSLUラベルの形式でアクセスすることができる。
我々は最近リリースされた音声対話データセットであるHarperValleyBank corpusに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-08-18T22:24:11Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。