論文の概要: Adaptive Knowledge Distillation for Device-Directed Speech Detection
- arxiv url: http://arxiv.org/abs/2508.02801v1
- Date: Mon, 04 Aug 2025 18:12:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.631183
- Title: Adaptive Knowledge Distillation for Device-Directed Speech Detection
- Title(参考訳): デバイス指向音声検出のための適応的知識蒸留
- Authors: Hyung Gun Chi, Florian Pesce, Wonil Chang, Oggi Rudovic, Arturo Argueta, Stefan Braun, Vineet Garg, Ahmed Hussen Abdelaziz,
- Abstract要約: 大規模事前学習音響エンコーダ(教師)の一般表現から知識を伝達する適応的KD手法を提案する。
提案した適応KDは, キーワード呼び出しにおいて, 蒸留なしで生徒モデルより優れており, 平衡誤差率では+26%, +19%の改善が見られた。
- 参考スコア(独自算出の注目度): 5.521554644415849
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Device-directed speech detection (DDSD) is a binary classification task that separates the user's queries to a voice assistant (VA) from background speech or side conversations. This is important for achieving naturalistic user experience. To this end, we propose knowledge distillation (KD) to enhance DDSD accuracy while ensuring efficient deployment. Specifically, we introduce a novel adaptive KD method that transfers knowledge from general representations of an ASR large pre-trained acoustic encoder (teacher). We apply task-specific adapters, on top of the (frozen) teacher encoder, trained jointly with the student model on DDSD. We demonstrate that the proposed adaptive KD outperforms the student model without distillation in the keyword and keyword-free (follow-up) invocations, with an improvement of +26% and +19% in terms of Equal Error Rate, respectively. We also show that this approach generalizes across the transformer and conformer-based model architectures.
- Abstract(参考訳): DDSD(Device-directed Speech Detection)は、ユーザのクエリを音声アシスタント(VA)に分離するバイナリ分類タスクである。
これは、自然主義的なユーザーエクスペリエンスを達成するために重要です。
そこで本研究では,DDSDの精度を向上し,効率的な展開を実現するための知識蒸留(KD)を提案する。
具体的には,ASRの大規模事前学習音響エンコーダ(教師)の一般表現から知識を伝達する適応的KD手法を提案する。
DDSDの学生モデルと共同で学習した(凍結した)教師エンコーダ上に,タスク固有アダプタを適用した。
提案した適応KDは,キーワードとキーワードフリー(フォローアップ)の呼び出しにおいて蒸留なしで生徒モデルより優れており,Equal Error Rateでは+26%,+19%の改善が見られた。
また、この手法が変換器およびコンバータベースモデルアーキテクチャ全体にわたって一般化されることも示している。
関連論文リスト
- Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Part Representation Learning with Teacher-Student Decoder for Occluded
Person Re-identification [65.63180725319906]
本稿では,隠蔽者ReIDのためのTSD(Teacher-Student Decoder)フレームワークを提案する。
提案するTSDは,Parsing-aware Teacher Decoder (PTD) と標準学生デコーダ (SSD) から構成される。
論文 参考訳(メタデータ) (2023-12-15T13:54:48Z) - Modality Dropout for Multimodal Device Directed Speech Detection using
Verbal and Non-Verbal Features [11.212228410835435]
デバイス指向音声検出(DDSD)のための言語的手がかりに加えて,非言語的手がかり,特に韻律的特徴の使用について検討した。
本研究は,韻律からのスコアと埋め込みを対応する動詞の手がかりと組み合わせることで,韻律が偽受容率(FA)において最大8.5%向上することが確認された。
モーダリティ・ドロップアウト手法を用いることで,推論時間におけるモダリティの欠如を評価した場合,これらのモデルの性能は,FAの観点から7.4%向上する。
論文 参考訳(メタデータ) (2023-10-23T18:09:31Z) - An Effective Transformer-based Contextual Model and Temporal Gate
Pooling for Speaker Identification [0.0]
本稿では,トランスフォーマーに基づく文脈モデルを適用した,効果的なエンドツーエンド話者識別モデルを提案する。
話者識別のための強力な学習能力を備えたプール手法であるテンポラルゲートプーリングを提案する。
提案手法は28.5Mパラメータで87.1%の精度を達成し、317.7Mパラメータでwav2vec2に匹敵する精度を示した。
論文 参考訳(メタデータ) (2023-08-22T07:34:07Z) - Exploring Inconsistent Knowledge Distillation for Object Detection with
Data Augmentation [66.25738680429463]
物体検出のための知識蒸留(KD)は、教師モデルから知識を伝達することで、コンパクトな検出器を訓練することを目的としている。
教師モデルの反直感的知覚に固有の知識を蒸留することを目的とした,一貫性のない知識蒸留(IKD)を提案する。
本手法は, 1段, 2段, アンカーフリーの物体検出器において, 最先端のKDベースラインより優れる。
論文 参考訳(メタデータ) (2022-09-20T16:36:28Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。