論文の概要: A Study of Different Ways to Use The Conformer Model For Spoken Language
Understanding
- arxiv url: http://arxiv.org/abs/2204.03879v1
- Date: Fri, 8 Apr 2022 07:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:37:30.971431
- Title: A Study of Different Ways to Use The Conformer Model For Spoken Language
Understanding
- Title(参考訳): 共形モデルを用いた音声言語理解の異なる方法に関する研究
- Authors: Nick J.C. Wang, Shaojun Wang, Jing Xiao
- Abstract要約: 我々は、ASRとNLUを結合する様々な方法、特に1つのコンフォーマーモデルを用いて比較する。
研究やアプリケーションに最適なシステムを決定する2段階の復号化システムとエンド・ツー・エンドシステムとの間には必ずしも選択肢がないことがわかった。
- 参考スコア(独自算出の注目度): 25.41993752756759
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SLU combines ASR and NLU capabilities to accomplish speech-to-intent
understanding. In this paper, we compare different ways to combine ASR and NLU,
in particular using a single Conformer model with different ways to use its
components, to better understand the strengths and weaknesses of each approach.
We find that it is not necessarily a choice between two-stage decoding and
end-to-end systems which determines the best system for research or
application. System optimization still entails carefully improving the
performance of each component. It is difficult to prove that one direction is
conclusively better than the other. In this paper, we also propose a novel
connectionist temporal summarization (CTS) method to reduce the length of
acoustic encoding sequences while improving the accuracy and processing speed
of end-to-end models. This method achieves the same intent accuracy as the best
two-stage SLU recognition with complicated and time-consuming decoding but does
so at lower computational cost. This stacked end-to-end SLU system yields an
intent accuracy of 93.97% for the SmartLights far-field set, 95.18% for the
close-field set, and 99.71% for FluentSpeech.
- Abstract(参考訳): SLUは、ASRとNLUの機能を組み合わせて、音声からインテントへの理解を実現する。
本稿では,asr と nlu を結合する方法の比較を行った。特に,それぞれのアプローチの長所と短所をよりよく理解するために,そのコンポーネントを使用する異なる方法を持つ単一コンフォーメータモデルを用いる。
研究やアプリケーションに最適なシステムを決定する2段階の復号化システムとエンド・ツー・エンドシステムとの間には必ずしも選択肢がない。
システムの最適化は、各コンポーネントのパフォーマンスを注意深く改善する。
1つの方向が他方よりも決定的に優れていることを示すのは難しい。
本稿では,エンド・ツー・エンドモデルの精度と処理速度を向上しつつ,音響符号化シーケンスの長さを削減できる新しい接続性時相要約法(cts)を提案する。
本手法は複雑で時間を要する復号化を伴う最良2段slu認識と同じ意図精度を実現するが、計算コストは低くなる。
このスタックされたエンドツーエンドのSLUシステムは、SmartLightsの遠距離フィールドセットで93.97%、近接フィールドで95.18%、FluentSpeechで99.71%の意図精度が得られる。
関連論文リスト
- OPTDTALS: Approximate Logic Synthesis via Optimal Decision Trees Approach [9.081146426124482]
近似論理合成(ALS)は、正確性を犠牲にして回路の複雑さを低減することを目的としている。
最適決定木を経験的精度で学習することで近似を実現する新しいALS手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T11:23:58Z) - Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Bridging the Gap Between End-to-End and Two-Step Text Spotting [88.14552991115207]
ブリッジングテキストスポッティングは、2段階のメソッドでエラーの蓄積と最適化性能の問題を解決する新しいアプローチである。
提案手法の有効性を広範囲な実験により実証する。
論文 参考訳(メタデータ) (2024-04-06T13:14:04Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - A Comparison of Semi-Supervised Learning Techniques for Streaming ASR at
Scale [64.10124092250126]
大規模ラベル付きコーパスの欠如により、ASRの性能向上のための主流の手法として、アンペアテキストとオーディオインジェクションが出現している。
本研究では,未ペアテキストと音声の両方を含む最先端の3つの半教師手法と,それらの組み合わせを制御された環境で比較する。
我々の設定では、これらの手法は、末尾語WERの大幅な向上、推論時のデコーダ計算、格子密度など、生のWERを超える多くの改善を提供する。
論文 参考訳(メタデータ) (2023-04-19T18:09:27Z) - Effectiveness of Text, Acoustic, and Lattice-based representations in
Spoken Language Understanding tasks [5.66060067322059]
インテント検出タスクを実行するために,3種類のシステムをベンチマークする。
本研究では,公用SLURP音声言語資源コーパスのシステム評価を行う。
論文 参考訳(メタデータ) (2022-12-16T14:01:42Z) - Matching Pursuit Based Scheduling for Over-the-Air Federated Learning [67.59503935237676]
本稿では,フェデレートラーニング手法を用いて,オーバー・ザ・エアラーニングのための低複雑さデバイススケジューリングアルゴリズムのクラスを開発する。
最先端の提案方式と比較すると,提案方式は極めて低効率なシステムである。
提案手法の有効性は,CIFARデータセットを用いた実験により確認した。
論文 参考訳(メタデータ) (2022-06-14T08:14:14Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Intelligent and Reconfigurable Architecture for KL Divergence Based
Online Machine Learning Algorithm [0.0]
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
オンライン機械学習(OML)アルゴリズムは、トレーニングフェーズを一切必要とせず、未知の環境に直接デプロイすることができる。
論文 参考訳(メタデータ) (2020-02-18T16:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。