論文の概要: Heterogeneous Target Speech Separation
- arxiv url: http://arxiv.org/abs/2204.03594v1
- Date: Thu, 7 Apr 2022 17:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 17:00:09.380189
- Title: Heterogeneous Target Speech Separation
- Title(参考訳): 不均一なターゲット音声分離
- Authors: Efthymios Tzinis, Gordon Wichern, Aswin Subramanian, Paris Smaragdis,
Jonathan Le Roux
- Abstract要約: 我々は,非相互排他的概念を用いて興味のあるソースを区別できる単一チャネルターゲットソース分離のための新しいパラダイムを提案する。
提案する異種分離フレームワークは,分散シフトが大きいデータセットをシームレスに利用することができる。
- 参考スコア(独自算出の注目度): 52.05046029743995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new paradigm for single-channel target source separation where
the sources of interest can be distinguished using non-mutually exclusive
concepts (e.g., loudness, gender, language, spatial location, etc). Our
proposed heterogeneous separation framework can seamlessly leverage datasets
with large distribution shifts and learn cross-domain representations under a
variety of concepts used as conditioning. Our experiments show that training
separation models with heterogeneous conditions facilitates the generalization
to new concepts with unseen out-of-domain data while also performing
substantially higher than single-domain specialist models. Notably, such
training leads to more robust learning of new harder source separation
discriminative concepts and can yield improvements over permutation invariant
training with oracle source selection. We analyze the intrinsic behavior of
source separation training with heterogeneous metadata and propose ways to
alleviate emerging problems with challenging separation conditions. We release
the collection of preparation recipes for all datasets used to further promote
research towards this challenging task.
- Abstract(参考訳): 本稿では,非変異排他的概念(ラウドネス,性別,言語,空間的位置など)を用いて興味の源を区別できる,単一チャネルのターゲットソース分離のための新しいパラダイムを提案する。
提案するヘテロジニアス分離フレームワークは,分散シフトが大きいデータセットをシームレスに利用し,コンディショニングとして多種多様な概念でクロスドメイン表現を学習することができる。
実験により,不均一な条件下での分離モデルの訓練により,ドメイン外データを用いた新しい概念への一般化が促進されるとともに,単一ドメインのスペシャリストモデルよりも大幅に高い性能を示すことが示された。
特に、このようなトレーニングは、新しい難しいソース分離の識別概念をより堅牢に学習させ、オラクルソース選択による置換不変トレーニングよりも改善をもたらす。
異種メタデータを用いた音源分離訓練の本質的挙動を解析し,新たな課題を解消する手法を提案する。
この課題に対する研究をさらに促進するために使用されるすべてのデータセットのための準備レシピのコレクションをリリースする。
関連論文リスト
- Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Learning Invariant Molecular Representation in Latent Discrete Space [52.13724532622099]
本稿では,分散シフトに対する不変性とロバスト性を示す分子表現を学習するための新しい枠組みを提案する。
我々のモデルは、様々な分布シフトが存在する場合に、最先端のベースラインに対してより強力な一般化を実現する。
論文 参考訳(メタデータ) (2023-10-22T04:06:44Z) - Tackling Computational Heterogeneity in FL: A Few Theoretical Insights [68.8204255655161]
我々は、計算異種データの形式化と処理を可能にする新しい集約フレームワークを導入し、分析する。
提案するアグリゲーションアルゴリズムは理論的および実験的予測から広範囲に解析される。
論文 参考訳(メタデータ) (2023-07-12T16:28:21Z) - Optimal Condition Training for Target Source Separation [56.86138859538063]
単一チャネルターゲットソース分離のための最適条件学習法を提案する。
多様な意味概念によってもたらされる相補的な情報は、興味の源泉を乱して分離するのに大いに役立ちます。
論文 参考訳(メタデータ) (2022-11-11T00:04:55Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。