論文の概要: A Study of Different Ways to Use The Conformer Model For Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2204.03879v1
- Date: Fri, 8 Apr 2022 07:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:37:30.971431
- Title: A Study of Different Ways to Use The Conformer Model For Spoken Language
Understanding
- Title(参考訳): 共形モデルを用いた音声言語理解の異なる方法に関する研究
- Authors: Nick J.C. Wang, Shaojun Wang, Jing Xiao
- Abstract要約: 我々は、ASRとNLUを結合する様々な方法、特に1つのコンフォーマーモデルを用いて比較する。
研究やアプリケーションに最適なシステムを決定する2段階の復号化システムとエンド・ツー・エンドシステムとの間には必ずしも選択肢がないことがわかった。
- 参考スコア(独自算出の注目度): 25.41993752756759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SLU combines ASR and NLU capabilities to accomplish speech-to-intent
understanding. In this paper, we compare different ways to combine ASR and NLU,
in particular using a single Conformer model with different ways to use its
components, to better understand the strengths and weaknesses of each approach.
We find that it is not necessarily a choice between two-stage decoding and
end-to-end systems which determines the best system for research or
application. System optimization still entails carefully improving the
performance of each component. It is difficult to prove that one direction is
conclusively better than the other. In this paper, we also propose a novel
connectionist temporal summarization (CTS) method to reduce the length of
acoustic encoding sequences while improving the accuracy and processing speed
of end-to-end models. This method achieves the same intent accuracy as the best
two-stage SLU recognition with complicated and time-consuming decoding but does
so at lower computational cost. This stacked end-to-end SLU system yields an
intent accuracy of 93.97% for the SmartLights far-field set, 95.18% for the
close-field set, and 99.71% for FluentSpeech.
- Abstract(参考訳): SLUは、ASRとNLUの機能を組み合わせて、音声からインテントへの理解を実現する。
本稿では,asr と nlu を結合する方法の比較を行った。特に,それぞれのアプローチの長所と短所をよりよく理解するために,そのコンポーネントを使用する異なる方法を持つ単一コンフォーメータモデルを用いる。
研究やアプリケーションに最適なシステムを決定する2段階の復号化システムとエンド・ツー・エンドシステムとの間には必ずしも選択肢がない。
システムの最適化は、各コンポーネントのパフォーマンスを注意深く改善する。
1つの方向が他方よりも決定的に優れていることを示すのは難しい。
本稿では,エンド・ツー・エンドモデルの精度と処理速度を向上しつつ,音響符号化シーケンスの長さを削減できる新しい接続性時相要約法(cts)を提案する。
本手法は複雑で時間を要する復号化を伴う最良2段slu認識と同じ意図精度を実現するが、計算コストは低くなる。
このスタックされたエンドツーエンドのSLUシステムは、SmartLightsの遠距離フィールドセットで93.97%、近接フィールドで95.18%、FluentSpeechで99.71%の意図精度が得られる。
関連論文リスト
- Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - A Meta-Learning Based Precoder Optimization Framework for Rate-Splitting
Multiple Access [53.191806757701215]
本稿では,トランスミッタ(CSIT)における部分チャネル状態情報を持つRSMAプリコーダを直接最適化するために,メタラーニングに基づく事前コーダ最適化フレームワークを提案する。
コンパクトニューラルネットワークのオーバーフィッティングを利用して、ASR(Average Sum-Rate)表現を最大化することにより、実行時間を最小化しながら、他のトレーニングデータの必要性を効果的に回避する。
数値的な結果から,メタラーニングに基づく解は,中規模シナリオにおける従来のプリコーダ最適化に類似したASR性能を実現し,大規模シナリオにおける準最適低複雑性プリコーダアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2023-07-17T20:31:41Z) - A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale [64.10124092250126]
大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
論文 参考訳(メタデータ) (2023-04-19T18:09:27Z) - Effectiveness of Text, Acoustic, and Lattice-based representations in
Spoken Language Understanding tasks [5.66060067322059]
インテント検出タスクを実行するために,3種類のシステムをベンチマークする。
本研究では,公用SLURP音声言語資源コーパスのシステム評価を行う。
論文 参考訳(メタデータ) (2022-12-16T14:01:42Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Intelligent and Reconfigurable Architecture for KL Divergence Based
Online Machine Learning Algorithm [0.0]
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
論文 参考訳(メタデータ) (2020-02-18T16:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。