論文の概要: Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2501.01936v1
- Date: Fri, 03 Jan 2025 18:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:11:13.966825
- Title: Improving Transducer-Based Spoken Language Understanding with Self-Conditioned CTC and Knowledge Transfer
- Title(参考訳): 自己記述型CTCと知識伝達を用いたトランスデューサに基づく音声言語理解の改善
- Authors: Vishal Sunder, Eric Fosler-Lussier,
- Abstract要約: 我々は、RNNトランスデューサモデル(RNN-T)において、エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。
提案モデルは,ASRおよびSLUを逐次実行するE2E微分可能なカスケードモデルに類似する。
- 参考スコア(独自算出の注目度): 11.362681035467121
- License:
- Abstract: In this paper, we propose to improve end-to-end (E2E) spoken language understand (SLU) in an RNN transducer model (RNN-T) by incorporating a joint self-conditioned CTC automatic speech recognition (ASR) objective. Our proposed model is akin to an E2E differentiable cascaded model which performs ASR and SLU sequentially and we ensure that the SLU task is conditioned on the ASR task by having CTC self conditioning. This novel joint modeling of ASR and SLU improves SLU performance significantly over just using SLU optimization. We further improve the performance by aligning the acoustic embeddings of this model with the semantically richer BERT model. Our proposed knowledge transfer strategy makes use of a bag-of-entity prediction layer on the aligned embeddings and the output of this is used to condition the RNN-T based SLU decoding. These techniques show significant improvement over several strong baselines and can perform at par with large models like Whisper with significantly fewer parameters.
- Abstract(参考訳): 本稿では,RNNトランスデューサモデル(RNN-T)において,自己条件付きCTC自動音声認識(ASR)の目標を組み込むことにより,エンドツーエンド(E2E)音声言語理解(SLU)を改善することを提案する。
提案手法は,ASRとSLUを逐次実行するE2E微分可能なカスケードモデルに類似し,CTC自己条件付きでSLUタスクがASRタスク上で条件付けられていることを保証する。
ASRとSLUの結合モデリングにより、SLUの最適化よりもSLUの性能が大幅に向上する。
我々は,このモデルの音響埋め込みを,意味的にリッチなBERTモデルと整合させることにより,さらなる性能向上を図る。
提案した知識伝達戦略では, 配列埋め込み上にバッグ・オブ・エンティリティ予測層を用いており, その出力を RNN-T ベースの SLU デコーディングの条件として用いる。
これらのテクニックは、いくつかの強力なベースラインよりも大幅に改善され、パラメータが大幅に少ないWhisperのような大きなモデルと同等に実行できる。
関連論文リスト
- CA-SSLR: Condition-Aware Self-Supervised Learning Representation for Generalized Speech Processing [27.828675312638296]
条件対応自己監視型学習表現(CA-SSLR)を導入する。
CA-S SLRはモデルの能力を向上し、目に見えないタスクに対する一般性を示す。
実験により、CA-S SLRはトレーニング可能なパラメータの数を減らし、過度な適合を緩和し、リソース不足や見当たらないタスクで優れることが示された。
論文 参考訳(メタデータ) (2024-12-05T18:51:10Z) - Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。