論文の概要: FANS: Fusing ASR and NLU for on-device SLU
- arxiv url: http://arxiv.org/abs/2111.00400v1
- Date: Sun, 31 Oct 2021 03:50:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-03 10:31:55.586040
- Title: FANS: Fusing ASR and NLU for on-device SLU
- Title(参考訳): FANS: デバイス上でのSLUにASRとNLUを融合させる
- Authors: Martin Radfar, Athanasios Mouchtaris, Siegfried Kunzmann, Ariya
Rastrow
- Abstract要約: 音声言語理解システム(SLU)は、音声入力コマンドを意味論に翻訳し、意味論を意図とスロットタグと値のペアとして符号化する。
現在のほとんどのSLUシステムは、2つのニューラルモデルのカスケードをデプロイしており、1つは入力されたオーディオをトランスクリプト(ASR)にマッピングし、もう1つはトランスクリプト(NLU)からインテントとスロットを予測する。
FANSは、ASRオーディオエンコーダをマルチタスクNLUデコーダに融合させ、入力オーディオから直接インテント、スロットタグ、スロット値を推測する新しいエンドツーエンドSLUモデルである。
- 参考スコア(独自算出の注目度): 16.1861817573118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken language understanding (SLU) systems translate voice input commands to
semantics which are encoded as an intent and pairs of slot tags and values.
Most current SLU systems deploy a cascade of two neural models where the first
one maps the input audio to a transcript (ASR) and the second predicts the
intent and slots from the transcript (NLU). In this paper, we introduce FANS, a
new end-to-end SLU model that fuses an ASR audio encoder to a multi-task NLU
decoder to infer the intent, slot tags, and slot values directly from a given
input audio, obviating the need for transcription. FANS consists of a shared
audio encoder and three decoders, two of which are seq-to-seq decoders that
predict non null slot tags and slot values in parallel and in an
auto-regressive manner. FANS neural encoder and decoders architectures are
flexible which allows us to leverage different combinations of LSTM,
self-attention, and attenders. Our experiments show compared to the
state-of-the-art end-to-end SLU models, FANS reduces ICER and IRER errors
relatively by 30 % and 7 %, respectively, when tested on an in-house SLU
dataset and by 0.86 % and 2 % absolute when tested on a public SLU dataset.
- Abstract(参考訳): 音声言語理解(slu)システムは、音声入力コマンドを意図とスロットタグと値のペアとしてエンコードされる意味論に変換する。
現在のほとんどのSLUシステムは、2つのニューラルモデルのカスケードをデプロイしており、1つは入力されたオーディオをトランスクリプト(ASR)にマッピングし、2つはインテントとスロットをトランスクリプト(NLU)から予測する。
本稿では,asrオーディオエンコーダをマルチタスクnluデコーダに融合し,入力音声から意図やスロットタグ,スロット値を直接推測し,書き起こしの必要性を回避した,新しいエンドツーエンドsluモデルであるfanを紹介する。
FANSは共有オーディオエンコーダと3つのデコーダで構成され、そのうち2つは非nullスロットタグとスロット値を並列かつ自動回帰的に予測するSeq-to-seqデコーダである。
FANSニューラルエンコーダとデコーダアーキテクチャは柔軟性があり、LSTM、自己注意、参加者の異なる組み合わせを利用することができます。
実験の結果, ICER と IRER の誤差は, 社内の SLU データセットで比較した場合, ICER と IRER の誤差を 30% と 7% に, パブリックな SLU データセットでは 0.86 % と 2 % に削減できることがわかった。
関連論文リスト
- Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Integrating Pretrained ASR and LM to Perform Sequence Generation for
Spoken Language Understanding [29.971414483624823]
本稿では,ASR と LMworks を,シーケンス生成タスクのための SLU の定式化に効果的に統合する 3 パスのエンドツーエンド(E2E) SLU システムを提案する。
提案した3パスSLUシステムは,2つのベンチマークSLUデータセット上でのカスケードモデルとE2E SLUモデルの性能向上を示す。
論文 参考訳(メタデータ) (2023-07-20T16:34:40Z) - Multimodal Audio-textual Architecture for Robust Spoken Language
Understanding [18.702076738332867]
マルチモーダル言語理解 (MLU) モジュールは、ASR文字の誤りによるSLUの性能劣化を軽減するために提案されている。
本モデルは,3つのSLUデータセットから5つのタスクに対して評価し,3つのASRエンジンからのASR転写を用いてロバスト性を検証した。
その結果、提案手法は、学術的ASRエンジンの全てのデータセットでPLMモデルの性能を上回り、ASRエラー伝播問題を効果的に軽減することを示した。
論文 参考訳(メタデータ) (2023-06-12T01:55:53Z) - End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders [13.722028186368737]
本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
論文 参考訳(メタデータ) (2023-05-04T15:36:37Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Multi-task RNN-T with Semantic Decoder for Streamable Spoken Language
Understanding [16.381644007368763]
E2E SLU(End-to-end Spoken Language Understanding)は、共同最適化と低レイテンシの利点により、関心を集めている。
本稿では,これらの考察に対処するために,マルチタスク・セマンティックトランスデューサモデルを提案する。
提案アーキテクチャは, ASR と NLU のラベルを自動回帰的に予測し, セマンティックデコーダを用いて従来予測されていたワードピースとスロットタグの両方を取り込みます。
論文 参考訳(メタデータ) (2022-04-01T16:38:56Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Adaptive Feature Selection for End-to-End Speech Translation [87.07211937607102]
我々は、エンコーダデコーダに基づくE2E音声翻訳(ST)のための適応的特徴選択(AFS)を提案する。
まず、ASRエンコーダを事前訓練し、AFSを適用して各符号化音声特徴の重要性をSRに動的に推定する。
我々は、L0DROPをAFSのバックボーンとみなし、時間次元と特徴次元の両方に関して、音声特徴をスパース化するように適応する。
論文 参考訳(メタデータ) (2020-10-16T17:21:00Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。