論文の概要: Domain Aware Training for Far-field Small-footprint Keyword Spotting
- arxiv url: http://arxiv.org/abs/2005.03633v3
- Date: Fri, 7 Aug 2020 16:19:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 00:08:30.079417
- Title: Domain Aware Training for Far-field Small-footprint Keyword Spotting
- Title(参考訳): 極小フットプリントキーワードスポッティングのためのドメインアウェアトレーニング
- Authors: Haiwei Wu, Yan Jia, Yuanfei Nie, Ming Li
- Abstract要約: 本稿では,遠方界シナリオ下でのスモールフットプリントキーワードスポッティングの課題に焦点をあてる。
我々のベースラインシステムは、遠距離場と近接語の両方の音声のプールデータで訓練された畳み込みニューラルネットワーク上に構築されている。
歪みに対処するため,我々は3つのドメイン認識トレーニングシステムを開発した。
- 参考スコア(独自算出の注目度): 15.137771965267577
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the task of small-footprint keyword spotting under
the far-field scenario. Far-field environments are commonly encountered in
real-life speech applications, causing severe degradation of performance due to
room reverberation and various kinds of noises. Our baseline system is built on
the convolutional neural network trained with pooled data of both far-field and
close-talking speech. To cope with the distortions, we develop three domain
aware training systems, including the domain embedding system, the deep CORAL
system, and the multi-task learning system. These methods incorporate domain
knowledge into network training and improve the performance of the keyword
classifier on far-field conditions. Experimental results show that our proposed
methods manage to maintain the performance on the close-talking speech and
achieve significant improvement on the far-field test set.
- Abstract(参考訳): 本稿では,遠隔地シナリオにおける小文字のキーワードスポッティングの課題に注目した。
遠方界環境は実生活の音声アプリケーションで一般的に見られ、室内残響や様々な騒音による性能低下を引き起こす。
我々のベースラインシステムは、遠距離場と近接語の両方の音声のプールデータで訓練された畳み込みニューラルネットワーク上に構築されている。
この歪みに対処するため,我々は,ドメイン埋め込みシステム,ディープサンゴシステム,マルチタスク学習システムを含む3つのドメイン認識学習システムを開発した。
これらの手法はネットワークトレーニングにドメイン知識を取り入れ、遠方界条件におけるキーワード分類器の性能を向上させる。
実験の結果,提案手法は近接音声の性能を維持し,遠方フィールドテストセットにおいて有意な改善が得られた。
関連論文リスト
- Contrastive Augmentation: An Unsupervised Learning Approach for Keyword Spotting in Speech Technology [4.080686348274667]
教師なしコントラスト学習と拡張一意的手法を組み合わせた新しい手法を提案する。
我々の方法では、ニューラルネットワークがラベルのないデータセットでトレーニングすることができ、下流タスクのパフォーマンスが向上する可能性がある。
本稿では,ボトルネック層の特徴と音声再構成情報との類似性を利用した音声強化に基づく教師なし学習手法を提案する。
論文 参考訳(メタデータ) (2024-08-31T05:40:37Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Domain Adaptive Few-Shot Open-Set Learning [36.39622440120531]
本稿では,DA-FSOS(Domain Adaptive Few-Shot Open Set Recognition)を提案する。
我々のトレーニングアプローチは、DAFOS-NETがターゲットドメインの新しいシナリオにうまく適応できるようにします。
本稿では,Office-Home,mini-ImageNet/CUB,DomainNetデータセットに基づくDA-FSOSの3つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-09-22T12:04:47Z) - Multi-source Domain Adaptation for Text-independent Forensic Speaker
Recognition [36.83842373791537]
話者認識システムを新しい環境に適応させることは、良好な性能モデルを改善するために広く使われている手法である。
従来の研究では、複数の音響領域からトレーニングデータを収集するより実践的なシナリオを無視した単一ドメイン適応に焦点が当てられていた。
複数の音響領域にまたがる適応性能を高めるために,3つの新しい適応手法を提案する。
論文 参考訳(メタデータ) (2022-11-17T22:11:25Z) - Unsupervised domain-adaptive person re-identification with multi-camera
constraints [0.0]
ドメインギャップを低減するための環境制約付き適応ネットワークを提案する。
提案手法は,環境から取得した個人識別ラベルを伴わない人ペア情報をモデルトレーニングに組み込む。
本研究では,パフォーマンス向上に寄与するペアから適切な人物を選択する手法を開発する。
論文 参考訳(メタデータ) (2022-10-25T13:12:28Z) - Deep face recognition with clustering based domain adaptation [57.29464116557734]
そこで本研究では,ターゲットドメインとソースがクラスを共有しない顔認識タスクを対象とした,クラスタリングに基づく新しいドメイン適応手法を提案する。
本手法は,特徴領域をグローバルに整列させ,その一方で,対象クラスタを局所的に識別することで,識別対象特徴を効果的に学習する。
論文 参考訳(メタデータ) (2022-05-27T12:29:11Z) - Set-based Meta-Interpolation for Few-Task Meta-Learning [79.4236527774689]
そこで本研究では,メタトレーニングタスクの分散化を目的とした,ドメインに依存しないタスク拡張手法Meta-Interpolationを提案する。
様々な領域にまたがる8つのデータセットに対してメタ補間の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2022-05-20T06:53:03Z) - Learnable Multi-level Frequency Decomposition and Hierarchical Attention
Mechanism for Generalized Face Presentation Attack Detection [7.324459578044212]
顔提示攻撃検知(PAD)は多くの注目を集めており、顔認識システムを保護する上で重要な役割を果たしている。
両ストリーム畳み込みニューラルネットワーク(CNN)フレームワークを提案する。
ステップワイドアブレーション研究において提案したPAD法の設計を実証した。
論文 参考訳(メタデータ) (2021-09-16T13:06:43Z) - Incremental Embedding Learning via Zero-Shot Translation [65.94349068508863]
現在の最先端のインクリメンタル学習手法は、従来の分類ネットワークにおける破滅的な忘れ方問題に取り組む。
ゼロショット変換クラス増分法(ZSTCI)と呼ばれる新しい組込みネットワークのクラス増分法を提案する。
さらに、ZSTCIを既存の正規化ベースのインクリメンタル学習手法と組み合わせることで、組み込みネットワークの性能をより向上させることができる。
論文 参考訳(メタデータ) (2020-12-31T08:21:37Z) - DEAAN: Disentangled Embedding and Adversarial Adaptation Network for
Robust Speaker Representation Learning [69.70594547377283]
話者関連およびドメイン固有の特徴を解き放つための新しいフレームワークを提案する。
我々のフレームワークは、より話者差別的でドメイン不変な話者表現を効果的に生成できる。
論文 参考訳(メタデータ) (2020-12-12T19:46:56Z) - Domain Adaptation of Learned Features for Visual Localization [60.6817896667435]
日時,天気,季節などの変化条件下での視覚的局所化の問題に対処する。
近年の深層ニューラルネットワークに基づく学習された局所的特徴は、古典的な手作りの局所的特徴よりも優れた性能を示している。
ドメインギャップを減らすために、いくつかの例しか必要としない、斬新で実践的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-21T05:17:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。