論文の概要: Dynamic Layer Customization for Noise Robust Speech Emotion Recognition
in Heterogeneous Condition Training
- arxiv url: http://arxiv.org/abs/2010.11226v1
- Date: Wed, 21 Oct 2020 18:07:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 01:19:49.999426
- Title: Dynamic Layer Customization for Noise Robust Speech Emotion Recognition
in Heterogeneous Condition Training
- Title(参考訳): 不均一条件訓練における雑音ロバスト音声認識のための動的層カスタマイズ
- Authors: Alex Wilf, Emily Mower Provost
- Abstract要約: ノイズ条件毎に,サンプルを特殊特徴エンコーダに動的にルーティングすることで,性能を向上できることを示す。
時間的順序付けを動的にルーティングすることで,これらの改善をマルチモーダル設定に拡張する。
- 参考スコア(独自算出の注目度): 16.807298318504156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robustness to environmental noise is important to creating automatic speech
emotion recognition systems that are deployable in the real world. Prior work
on noise robustness has assumed that systems would not make use of
sample-by-sample training noise conditions, or that they would have access to
unlabelled testing data to generalize across noise conditions. We avoid these
assumptions and introduce the resulting task as heterogeneous condition
training. We show that with full knowledge of the test noise conditions, we can
improve performance by dynamically routing samples to specialized feature
encoders for each noise condition, and with partial knowledge, we can use known
noise conditions and domain adaptation algorithms to train systems that
generalize well to unseen noise conditions. We then extend these improvements
to the multimodal setting by dynamically routing samples to maintain temporal
ordering, resulting in significant improvements over approaches that do not
specialize or generalize based on noise type.
- Abstract(参考訳): 環境騒音に対するロバスト性は、現実世界に展開可能な自動音声認識システムを構築する上で重要である。
以前のノイズロバスト性の研究では、システムはサンプル・バイ・サンプルのトレーニングノイズ条件を使用しないか、あるいはノイズ条件を一般化するためにラベルなしのテストデータにアクセスすると仮定されていた。
我々は,これらの仮定を回避し,得られたタスクを不均質な条件トレーニングとして導入する。
テストノイズ条件を十分に知れば,各ノイズ条件の特定特徴エンコーダにサンプルを動的にルーティングすることで性能を向上させることができ,部分的知識では,既知の雑音条件とドメイン適応アルゴリズムを用いて,未知の雑音条件によく適応するシステムを訓練することができることを示す。
次に,時間的順序付けを動的にルーティングすることで,これらの改善をマルチモーダル・セッティングに拡張し,ノイズタイプに基づいた特殊化や一般化を行わないアプローチよりも大幅に改善する。
関連論文リスト
- Effective Noise-aware Data Simulation for Domain-adaptive Speech Enhancement Leveraging Dynamic Stochastic Perturbation [25.410770364140856]
クロスドメイン音声強調(SE)は、目に見えない対象領域におけるノイズや背景情報の不足により、しばしば深刻な課題に直面している。
本研究では,ノイズ抽出技術とGANを利用した新しいデータシミュレーション手法を提案する。
本研究では,動的摂動の概念を導入し,制御された摂動を推論中の雑音埋め込みに注入する。
論文 参考訳(メタデータ) (2024-09-03T02:29:01Z) - Noise-BERT: A Unified Perturbation-Robust Framework with Noise Alignment
Pre-training for Noisy Slot Filling Task [14.707646721729228]
現実的な対話システムでは、ユーザからの入力情報は様々な種類の入力摂動の対象となることが多い。
本研究では,ノイズアライメント事前学習による摂動ロバスト統合フレームワークであるNoss-BERTを提案する。
本フレームワークは,2つのノイズアライメント事前学習タスクを組み込んでいる。
論文 参考訳(メタデータ) (2024-02-22T12:39:50Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Robustness Enhancement in Neural Networks with Alpha-Stable Training
Noise [0.0]
本研究では,非ガウス音,特にアルファ安定雑音に対する強い強靭性の可能性について検討する。
ガウス雑音とアルファ安定雑音で訓練したモデルの試験精度を比較することで,ガウス雑音よりもアルファ安定雑音で訓練した方が有効であることがわかった。
トレーニングデータに通常付加されるガウス雑音をアルファ安定雑音で置き換える新しいデータ拡張法を提案する。
論文 参考訳(メタデータ) (2023-11-17T10:00:47Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Explainable Artificial Intelligence driven mask design for
self-supervised seismic denoising [0.0]
自己教師付きコヒーレントノイズ抑圧法は、ノイズ統計の広範な知識を必要とする。
本稿では,視覚ネットワークであるブラックボックスの内部を見るために,説明可能な人工知能アプローチを提案する。
ランダムに選択された多数の入力画素に対するジャコビアン寄与の簡易な平均化が、最も効果的なマスクの指標であることを示す。
論文 参考訳(メタデータ) (2023-07-13T11:02:55Z) - Realistic Noise Synthesis with Diffusion Models [68.48859665320828]
Deep Image Denoisingモデルは、しばしば高品質なパフォーマンスのために大量のトレーニングデータに依存します。
本稿では,拡散モデル,すなわちRealistic Noise Synthesize Diffusor(RNSD)を用いて現実的な雑音を合成する新しい手法を提案する。
RNSDは、より現実的なノイズや空間的相関を複数の周波数で生成できるような、ガイド付きマルチスケールコンテンツを組み込むことができる。
論文 参考訳(メタデータ) (2023-05-23T12:56:01Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。
その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。
本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文 参考訳(メタデータ) (2022-12-06T04:36:32Z) - C2N: Practical Generative Noise Modeling for Real-World Denoising [53.96391787869974]
両例を使わずに複雑な実世界の騒音を模倣するクリーン・ツー・ノイズ画像生成フレームワーク,すなわちC2Nを導入する。
我々は,C2Nの騒音発生器を実世界の騒音特性の成分に応じて構築し,広い範囲の騒音を正確に表現する。
論文 参考訳(メタデータ) (2022-02-19T05:53:46Z) - Removing Noise from Extracellular Neural Recordings Using Fully
Convolutional Denoising Autoencoders [62.997667081978825]
ノイズの多いマルチチャネル入力からクリーンなニューロン活動信号を生成することを学習する完全畳み込みデノイングオートエンコーダを提案する。
シミュレーションデータを用いた実験結果から,提案手法はノイズ崩壊型ニューラルネットワークの品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-09-18T14:51:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。