論文の概要: An Empirical Analysis on the Vulnerabilities of End-to-End Speech
Segregation Models
- arxiv url: http://arxiv.org/abs/2206.09556v1
- Date: Mon, 20 Jun 2022 03:46:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-22 15:35:16.023142
- Title: An Empirical Analysis on the Vulnerabilities of End-to-End Speech
Segregation Models
- Title(参考訳): エンドツーエンド音声分離モデルの脆弱性に関する実証分析
- Authors: Rahil Parikh, Gaspar Rochette, Carol Espy-Wilson, Shihab Shamma
- Abstract要約: ConvTasnet と DPT-Net を解析し、入力混合物の調和解析を行う。
エンド・ツー・エンドのネットワークは非常に不安定であり、人間には知覚できない変形に直面すると性能が低下することがわかった。
- 参考スコア(独自算出の注目度): 0.8666275811953879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end learning models have demonstrated a remarkable capability in
performing speech segregation. Despite their wide-scope of real-world
applications, little is known about the mechanisms they employ to group and
consequently segregate individual speakers. Knowing that harmonicity is a
critical cue for these networks to group sources, in this work, we perform a
thorough investigation on ConvTasnet and DPT-Net to analyze how they perform a
harmonic analysis of the input mixture. We perform ablation studies where we
apply low-pass, high-pass, and band-stop filters of varying pass-bands to
empirically analyze the harmonics most critical for segregation. We also
investigate how these networks decide which output channel to assign to an
estimated source by introducing discontinuities in synthetic mixtures. We find
that end-to-end networks are highly unstable, and perform poorly when
confronted with deformations which are imperceptible to humans. Replacing the
encoder in these networks with a spectrogram leads to lower overall
performance, but much higher stability. This work helps us to understand what
information these network rely on for speech segregation, and exposes two
sources of generalization-errors. It also pinpoints the encoder as the part of
the network responsible for these errors, allowing for a redesign with expert
knowledge or transfer learning.
- Abstract(参考訳): エンド・ツー・エンドの学習モデルは、音声分離を行う際、顕著な能力を示した。
実世界の応用範囲は広いが、彼らがグループ化し、結果として個々の話者を分離するメカニズムについてはほとんど知られていない。
本研究では,これらのネットワークがグループ情報源にとって重要な鍵となることを知るため,コンバタネットとDPT-Netを徹底的に調査し,入力混合物の調和解析を行う。
我々は,低域通過,高域通過,帯域通過フィルタを適用し,分離に最も重要な高調波を実験的に解析する。
また,これらのネットワークが,合成混合物に不連続性を導入することにより,どの出力チャネルを推定源に割り当てるかを決定する方法についても検討する。
エンド・ツー・エンドのネットワークは高度に不安定であり、人間には受け入れられない変形に直面すると性能が低下する。
これらのネットワークのエンコーダをスペクトログラムで置き換えると、全体的な性能は低下するが、安定性は向上する。
この研究は、これらのネットワークが音声分離にどのような情報に依存しているかを理解するのに役立つ。
また、エンコーダをこれらのエラーの原因となるネットワークの一部とし、専門家の知識やトランスファー学習の再設計を可能にする。
関連論文リスト
- Improving Network Interpretability via Explanation Consistency Evaluation [56.14036428778861]
本稿では、より説明可能なアクティベーションヒートマップを取得し、同時にモデル性能を向上させるフレームワークを提案する。
具体的には、モデル学習において、トレーニングサンプルを適応的に重み付けするために、新しいメトリクス、すなわち説明整合性を導入する。
そこで,本フレームワークは,これらのトレーニングサンプルに深い注意を払ってモデル学習を促進する。
論文 参考訳(メタデータ) (2024-08-08T17:20:08Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - Gaussian Mixture Models for Affordance Learning using Bayesian Networks [50.18477618198277]
Affordancesはアクション、オブジェクト、エフェクト間の関係の基本的な記述である。
本稿では,世界を探究し,その感覚経験から自律的にこれらの余裕を学習するエンボディエージェントの問題にアプローチする。
論文 参考訳(メタデータ) (2024-02-08T22:05:45Z) - Sample Complexity of Opinion Formation on Networks with Linear Regression Models [36.75032460874647]
ネットワークにおける意見収束のサンプル複雑性について検討する。
我々のフレームワークは、認識された意見形成ゲームに基づいて構築されている。
人工ネットワークと実世界のネットワークの実証結果は、我々の理論的な発見を強く支えている。
論文 参考訳(メタデータ) (2023-11-04T08:28:33Z) - Using Early Readouts to Mediate Featural Bias in Distillation [30.5299408494168]
ディープネットワークは、現実世界の教師付き学習タスクにおいて、突発的な特徴ラベル相関を学習する傾向がある。
本稿では,従来のネットワーク層からの表現を用いてラベルを予測しようとする新しい早期読み出し機構を提案する。
論文 参考訳(メタデータ) (2023-10-28T04:58:15Z) - Investigating Adversarial Vulnerability and Implicit Bias through Frequency Analysis [0.3985805843651649]
本研究では,これらの摂動と,勾配に基づくアルゴリズムで学習したニューラルネットワークの暗黙バイアスとの関係について検討する。
入力画像のそれぞれに対して, 正確な分類や誤分類に必要な最小かつ最も重要な周波数を, 逆摂動バージョンで同定する。
その結果,Fourier空間のネットワークバイアスと敵攻撃の標的周波数は高い相関性を示し,新たな敵防御戦略が示唆された。
論文 参考訳(メタデータ) (2023-05-24T14:40:23Z) - Understanding the Spectral Bias of Coordinate Based MLPs Via Training
Dynamics [2.9443230571766854]
本稿では,ReLUネットワークの計算結果と勾配勾配収束速度の関連性について検討する。
次に、この定式化を用いて、低次元設定におけるスペクトルバイアスの重症度と位置符号化がこれを克服する方法について研究する。
論文 参考訳(メタデータ) (2023-01-14T04:21:25Z) - Self-supervised debiasing using low rank regularization [59.84695042540525]
純粋な相関は、ディープニューラルネットワークの強いバイアスを引き起こし、一般化能力を損なう可能性がある。
ラベルのないサンプルと互換性のある自己監督型脱バイアスフレームワークを提案する。
注目すべきは,提案フレームワークが自己教師付き学習ベースラインの一般化性能を著しく向上させることである。
論文 参考訳(メタデータ) (2022-10-11T08:26:19Z) - Dissecting U-net for Seismic Application: An In-Depth Study on Deep
Learning Multiple Removal [3.058685580689605]
地震処理は、しばしばデータ収集時に現れる多重を抑圧する必要がある。
我々は、その使い方の複雑さを減らしながら、競争力のある結果を提供するディープラーニングベースの代替案を提示します。
論文 参考訳(メタデータ) (2022-06-24T07:16:27Z) - Learning from Failure: Training Debiased Classifier from Biased
Classifier [76.52804102765931]
ニューラルネットワークは、所望の知識よりも学習が簡単である場合にのみ、素早い相関に依存することを学習していることを示す。
本稿では,一対のニューラルネットワークを同時にトレーニングすることで,障害に基づくデバイアス化手法を提案する。
本手法は,合成データセットと実世界のデータセットの両方において,各種バイアスに対するネットワークのトレーニングを大幅に改善する。
論文 参考訳(メタデータ) (2020-07-06T07:20:29Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。