論文の概要: Jointly Encoding Word Confusion Network and Dialogue Context with BERT
for Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2005.11640v3
- Date: Tue, 8 Sep 2020 02:45:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 13:14:25.642527
- Title: Jointly Encoding Word Confusion Network and Dialogue Context with BERT
for Spoken Language Understanding
- Title(参考訳): 音声言語理解のための単語混乱ネットワークとbertとの対話コンテキストの協調符号化
- Authors: Chen Liu, Su Zhu, Zijian Zhao, Ruisheng Cao, Lu Chen and Kai Yu
- Abstract要約: Spoken Language Understanding (SLU)は、自動音声認識(ASR)からの仮説を構造化意味表現に変換する。
この問題に対処するために、単語混乱ネットワーク(WCN)がSLUの入力を符号化するために使われてきた。
本稿では、WCNと対話コンテキストを共同で符号化するために、新しいBERTベースのSLUモデル(WCN-BERT SLU)を提案する。
- 参考スコア(独自算出の注目度): 37.34201309743704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken Language Understanding (SLU) converts hypotheses from automatic speech
recognizer (ASR) into structured semantic representations. ASR recognition
errors can severely degenerate the performance of the subsequent SLU module. To
address this issue, word confusion networks (WCNs) have been used to encode the
input for SLU, which contain richer information than 1-best or n-best
hypotheses list. To further eliminate ambiguity, the last system act of
dialogue context is also utilized as additional input. In this paper, a novel
BERT based SLU model (WCN-BERT SLU) is proposed to encode WCNs and the dialogue
context jointly. It can integrate both structural information and ASR posterior
probabilities of WCNs in the BERT architecture. Experiments on DSTC2, a
benchmark of SLU, show that the proposed method is effective and can outperform
previous state-of-the-art models significantly.
- Abstract(参考訳): Spoken Language Understanding (SLU)は、自動音声認識(ASR)からの仮説を構造化意味表現に変換する。
ASR認識誤差は、その後のSLUモジュールの性能を著しく低下させることができる。
この問題に対処するために、単語混乱ネットワーク(WCN)は、1-bestやn-bestの仮説リストよりも豊富な情報を含むSLUの入力を符号化するために使用されている。
さらに曖昧さをなくすため、最後の対話コンテキストのシステム行為も追加入力として利用される。
本稿では、WCNと対話コンテキストを共同で符号化するために、新しいBERTベースのSLUモデル(WCN-BERT SLU)を提案する。
WCNの構造情報とASR後部確率の両方をBERTアーキテクチャに組み込むことができる。
SLUのベンチマークであるDSTC2の実験では,提案手法は有効であり,従来の最先端モデルよりも優れていた。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Style Attuned Pre-training and Parameter Efficient Fine-tuning for
Spoken Language Understanding [19.105304214638075]
音声言語理解学習のための新しいフレームワークを提案する。
このフレームワークは会話言語モデリング(CLM)事前学習タスクとライトエンコーダアーキテクチャで構成されている。
このフレームワークでは、Alexaの内部データセットと2つのパブリックデータセット上での最先端のSLU結果のパフォーマンスにマッチし、1タスクあたりのパラメータは4.4%に過ぎません。
論文 参考訳(メタデータ) (2020-10-09T03:53:37Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。