論文の概要: Adapting text-based dialogue state tracker for spoken dialogues
- arxiv url: http://arxiv.org/abs/2308.15053v1
- Date: Tue, 29 Aug 2023 06:27:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:42:37.152667
- Title: Adapting text-based dialogue state tracker for spoken dialogues
- Title(参考訳): 音声対話のためのテキストベース対話状態トラッカーの適応
- Authors: Jaeseok Yoon (1), Seunghyun Hwang (1), Ran Han (2), Jeonguk Bang (2),
Kee-Eung Kim (1 and 3) ((1) Kim Jaechul Graduate School of AI, KAIST, Seoul,
Republic of Korea, (2) Electronics Telecommunications Research Institute
(ETRI), Daejeon, Republic of Korea, (3) School of Computing, KAIST, Daejeon,
Republic of Korea)
- Abstract要約: 本稿では,DSTC11における音声認識対話システム技術課題トラックに参画した,高度に成功を収めたモデルの構築に向けた技術的取り組みについて述べる。
本モデルは,(1)音声音声とテキスト音声のギャップを埋める自動音声認識誤差補正,(2)スロット記述を用いてスロットと値を推定するテキストベース対話システム(D3ST),(3)推定スロット値の誤差を復元する後処理の3つの主要モジュールから構成される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Although there have been remarkable advances in dialogue systems through the
dialogue systems technology competition (DSTC), it remains one of the key
challenges to building a robust task-oriented dialogue system with a speech
interface. Most of the progress has been made for text-based dialogue systems
since there are abundant datasets with written corpora while those with spoken
dialogues are very scarce. However, as can be seen from voice assistant systems
such as Siri and Alexa, it is of practical importance to transfer the success
to spoken dialogues. In this paper, we describe our engineering effort in
building a highly successful model that participated in the speech-aware
dialogue systems technology challenge track in DSTC11. Our model consists of
three major modules: (1) automatic speech recognition error correction to
bridge the gap between the spoken and the text utterances, (2) text-based
dialogue system (D3ST) for estimating the slots and values using slot
descriptions, and (3) post-processing for recovering the error of the estimated
slot value. Our experiments show that it is important to use an explicit
automatic speech recognition error correction module, post-processing, and data
augmentation to adapt a text-based dialogue state tracker for spoken dialogue
corpora.
- Abstract(参考訳): 対話システム技術コンペティション(DSTC)を通じて対話システムに顕著な進歩があったが、音声インタフェースを用いた堅牢なタスク指向対話システムを構築する上での重要な課題の1つである。
テキストベースの対話システムでは、コーパスが書かれた大量のデータセットがあるが、音声対話を持つものは非常に少ないため、ほとんどが進歩している。
しかし、siriやalexaのような音声アシスタントシステムに見られるように、その成功を音声対話に移すことは実際的に重要である。
本稿では,dstc11における音声認識対話システム技術チャレンジトラックに参加する,高度に成功したモデルの構築に向けた技術努力について述べる。
本モデルは,(1)音声とテキストとのギャップを埋める自動音声認識誤り訂正,(2)スロット記述を用いたスロットと値を推定するテキストベース対話システム(d3st),(3)推定スロット値の誤りを復元するための後処理,の3つの主要モジュールからなる。
本研究は,音声対話コーパスにテキストベースの対話状態トラッカを適応させるために,明示的な自動音声認識誤り訂正モジュール,後処理,データ拡張を用いることが重要であることを示す。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Are cascade dialogue state tracking models speaking out of turn in
spoken dialogues? [1.786898113631979]
本稿では,対話状態追跡のような複雑な環境下でのアートシステムのエラーを包括的に解析する。
音声MultiWozに基づいて、音声対話システムとチャットベースの対話システムとのギャップを埋めるためには、非カテゴリースロットの値の誤差に対処することが不可欠である。
論文 参考訳(メタデータ) (2023-11-03T08:45:22Z) - TOD-DA: Towards Boosting the Robustness of Task-oriented Dialogue
Modeling on Spoken Conversations [24.245354500835465]
本稿では,音声対話におけるタスク指向対話モデリングの堅牢性を高めるために,新しいモデルに依存しないデータ拡張パラダイムを提案する。
本手法は,音声対話におけるタスク指向対話モデリングのベンチマークであるDSTC10 Track2の両タスクにおいて,第1位となった。
論文 参考訳(メタデータ) (2021-12-23T10:04:25Z) - UniDS: A Unified Dialogue System for Chit-Chat and Task-oriented
Dialogues [59.499965460525694]
上記の2つのスキルを備えた統合対話システム(UniDS)を提案する。
我々は、チャットとタスク指向の対話の両方に対応可能な統合対話データスキーマを設計する。
我々は、事前訓練されたチャット対話モデルから混合対話データでUniDSを訓練する。
論文 参考訳(メタデータ) (2021-10-15T11:56:47Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。