論文の概要: Modeling ASR Ambiguity for Dialogue State Tracking Using Word Confusion
Networks
- arxiv url: http://arxiv.org/abs/2002.00768v2
- Date: Sat, 1 Aug 2020 18:40:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-04 08:30:06.807401
- Title: Modeling ASR Ambiguity for Dialogue State Tracking Using Word Confusion
Networks
- Title(参考訳): 単語融合ネットワークを用いた対話状態追跡のためのASR曖昧性のモデル化
- Authors: Vaishali Pal, Fabien Guillot, Manish Shrivastava, Jean-Michel Renders,
Laurent Besacier
- Abstract要約: 最先端のニューラル・ダイアログ・ステート・トラッカー(DST)を用いた混乱ネットワークの利点について検討する。
注意混乱ネットワークエンコーダを用いて,2次元の畳み込みを1次元の埋め込み列に符号化する。
DSTの「グローバルローカル自己認識型対話状態タッカー(GLAD)」モデルに組込み,推定時間と時間の両方で大幅な改善が得られた。
- 参考スコア(独自算出の注目度): 31.452663354668896
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Spoken dialogue systems typically use a list of top-N ASR hypotheses for
inferring the semantic meaning and tracking the state of the dialogue. However
ASR graphs, such as confusion networks (confnets), provide a compact
representation of a richer hypothesis space than a top-N ASR list. In this
paper, we study the benefits of using confusion networks with a
state-of-the-art neural dialogue state tracker (DST). We encode the
2-dimensional confnet into a 1-dimensional sequence of embeddings using an
attentional confusion network encoder which can be used with any DST system.
Our confnet encoder is plugged into the state-of-the-art 'Global-locally
Self-Attentive Dialogue State Tacker' (GLAD) model for DST and obtains
significant improvements in both accuracy and inference time compared to using
top-N ASR hypotheses.
- Abstract(参考訳): 音声対話システムは通常、意味的意味を推測し、対話の状態を追跡するためにトップNのASR仮説のリストを使用する。
しかし、混乱ネットワーク (confnets) のような ASR グラフは、トップNの ASR リストよりもリッチな仮説空間のコンパクトな表現を提供する。
本稿では,最先端のニューラルダイアログ状態トラッカー(DST)を用いた混乱ネットワークの利点について検討する。
我々は,DSTシステムで使用可能な注目混乱ネットワークエンコーダを用いて,2次元の畳み込みを1次元の埋め込み列に符号化する。
DSTの「グローバルローカル自己認識状態タッカー」(GLAD)モデルに実装し、トップNのASR仮説と比較して精度と推論時間に大きな改善を加えた。
関連論文リスト
- Streaming Speech-to-Confusion Network Speech Recognition [19.720334657478475]
本稿では、待ち時間を維持しながら混乱ネットワークを出力する新しいストリーミングASRアーキテクチャを提案する。
モデルのうち1-bestの結果は、同等のRNN-Tシステムと同等であることを示す。
また、遠距離音声アシスタントタスクにおいて、我々のモデルは強力なRNN-Tベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-02T20:28:14Z) - VQ-T: RNN Transducers using Vector-Quantized Prediction Network States [52.48566999668521]
本稿では,RNNトランスデューサの予測ネットワークにおけるベクトル量子化長短期記憶単位を提案する。
ASRネットワークと協調して離散表現を訓練することにより、格子生成のために仮説を積極的にマージすることができる。
提案するVQ RNNトランスデューサは,通常の予測ネットワークを持つトランスデューサよりもASR性能が向上することを示す。
論文 参考訳(メタデータ) (2022-08-03T02:45:52Z) - Extended Graph Temporal Classification for Multi-Speaker End-to-End ASR [77.82653227783447]
ニューラルネットワークによるラベル遷移とラベル遷移の両方をモデル化するための GTC の拡張を提案する。
例として,多話者音声認識タスクに拡張GTC(GTC-e)を用いる。
論文 参考訳(メタデータ) (2022-03-01T05:02:02Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - A Sequence-to-Sequence Approach to Dialogue State Tracking [17.81139775400199]
Seq2Seq-DUはシーケンス対シーケンス問題として対話状態追跡を形式化する。
インテント、スロット、スロットの値を共同でモデル化することができる。
分類スロットや非分類スロット、見えないスキーマを効果的に扱うことができる。
論文 参考訳(メタデータ) (2020-11-18T21:42:44Z) - DNN-Based Semantic Model for Rescoring N-best Speech Recognition List [8.934497552812012]
自動音声認識(ASR)システムの単語誤り率(WER)は、トレーニングと騒音等によるテスト条件とのミスマッチが発生した場合に増加する。
本研究の目的は、歪み音の特徴を補うための長期意味関係をモデル化することで、ASRを改善することである。
論文 参考訳(メタデータ) (2020-11-02T13:50:59Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。