論文の概要: Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models
- arxiv url: http://arxiv.org/abs/2203.15975v1
- Date: Wed, 30 Mar 2022 01:27:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-31 16:59:29.235190
- Title: Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models
- Title(参考訳): デバイス指向音声検出:弱教師付きモデルの蒸留による正規化
- Authors: Vineet Garg, Ognjen Rudovic, Pranay Dighe, Ahmed H. Abdelaziz, Erik
Marchi, Saurabh Adya, Chandra Dhir, Ahmed Tewfik
- Abstract要約: 我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
- 参考スコア(独自算出の注目度): 13.456066434598155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of detecting speech directed to a device that does not
contain a specific wake-word. Specifically, we focus on audio coming from a
touch-based invocation. Mitigating virtual assistants (VAs) activation due to
accidental button presses is critical for user experience. While the majority
of approaches to false trigger mitigation (FTM) are designed to detect the
presence of a target keyword, inferring user intent in absence of keyword is
difficult. This also poses a challenge when creating the training/evaluation
data for such systems due to inherent ambiguity in the user's data. To this
end, we propose a novel FTM approach that uses weakly-labeled training data
obtained with a newly introduced data sampling strategy. While this sampling
strategy reduces data annotation efforts, the data labels are noisy as the data
are not annotated manually. We use these data to train an acoustics-only model
for the FTM task by regularizing its loss function via knowledge distillation
from an ASR-based (LatticeRNN) model. This improves the model decisions,
resulting in 66% gain in accuracy, as measured by equal-error-rate (EER), over
the base acoustics-only model. We also show that the ensemble of the LatticeRNN
and acoustic-distilled models brings further accuracy improvement of 20%.
- Abstract(参考訳): 特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
偶発的なボタン押圧による仮想アシスタント(VA)のアクティベーションの緩和は,ユーザエクスペリエンスに不可欠である。
false trigger mitigation (ftm) へのアプローチの多くはターゲットキーワードの存在を検出するために設計されているが、キーワードがない場合のユーザの意図を推測することは困難である。
これはまた、ユーザのデータに固有のあいまいさがあるため、このようなシステムのトレーニング/評価データを作成する際にも課題となる。
そこで本研究では,新たに導入したデータサンプリング戦略で得られた弱ラベルトレーニングデータを用いた新しいftm手法を提案する。
このサンプリング戦略はデータアノテーションの労力を減らすが、データラベルは手動でアノテートされないためうるさい。
これらのデータを用いて,asrモデル(latticernn)からの知識蒸留による損失関数を定式化することにより,ftmタスクの音響のみモデルを学習する。
これによりモデル決定が改善され、66%の精度が向上し、ベース音響のみのモデルよりもEER(Equal-error-rate)によって測定される。
また,LatticeRNNと音響蒸留モデルのアンサンブルにより,精度が20%向上することを示した。
関連論文リスト
- Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Analyze the Robustness of Classifiers under Label Noise [5.708964539699851]
教師付き学習におけるラベルノイズは、誤ったラベルまたは不正確なラベルによって特徴づけられ、モデル性能を著しく損なう。
本研究は, ラベルノイズが実用的応用に与える影響について, ますます関連する問題に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-12T13:51:25Z) - Combating Label Noise With A General Surrogate Model For Sample
Selection [84.61367781175984]
本稿では,視覚言語サロゲートモデルCLIPを用いて,雑音の多いサンプルを自動的にフィルタリングする手法を提案する。
提案手法の有効性を実世界および合成ノイズデータセットで検証した。
論文 参考訳(メタデータ) (2023-10-16T14:43:27Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Learning to Detect Noisy Labels Using Model-Based Features [16.681748918518075]
Select-Enhanced Noisy label Training (SENT)を提案する。
SENTは、データ駆動の柔軟性を保ちながら、メタ学習に依存しない。
自己学習とラベルの破損の設定の下で、強力なベースラインよりもパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2022-12-28T10:12:13Z) - On-the-fly Denoising for Data Augmentation in Natural Language
Understanding [101.46848743193358]
よりクリーンなオリジナルデータに基づいて訓練された有機教師モデルによって提供されるソフトな拡張ラベルから学習する,データ拡張のためのオンザフライデノケーション手法を提案する。
本手法は,一般的な拡張手法に適用でき,テキスト分類と質問応答の両タスクの性能を一貫して向上させることができる。
論文 参考訳(メタデータ) (2022-12-20T18:58:33Z) - Learning from Training Dynamics: Identifying Mislabeled Data Beyond
Manually Designed Features [43.41573458276422]
LSTMネットワークを例として,ノイズ検出を応用した新しい学習ベースソリューションを提案する。
提案手法は、合成ラベル雑音を用いたデータセットを用いて、教師あり方式でノイズ検出器を訓練する。
提案手法は, 各種データセットの誤ラベルサンプルを, さらなる適応を伴わずに, 精度良く検出できることが示唆された。
論文 参考訳(メタデータ) (2022-12-19T09:39:30Z) - Continual Learning for Fake Audio Detection [62.54860236190694]
本論文では,連続学習に基づく手法である忘れずに偽物を検出することで,モデルに新たなスプーフィング攻撃をインクリメンタルに学習させる手法を提案する。
ASVspoof 2019データセットで実験が行われる。
論文 参考訳(メタデータ) (2021-04-15T07:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。