論文の概要: Listen to What You Want: Neural Network-based Universal Sound Selector
- arxiv url: http://arxiv.org/abs/2006.05712v1
- Date: Wed, 10 Jun 2020 08:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:34:52.971206
- Title: Listen to What You Want: Neural Network-based Universal Sound Selector
- Title(参考訳): ニューラルネットワークをベースとするユニバーサルサウンドセレクタ
- Authors: Tsubasa Ochiai, Marc Delcroix, Yuma Koizumi, Hiroaki Ito, Keisuke
Kinoshita, Shoko Araki
- Abstract要約: 本稿では,ユーザが指定したAEクラスからAE音声を直接選択できる汎用音声選択ニューラルネットワークを提案する。
提案するフレームワークは、複数の希望するAEクラスから音を同時に選択するように明示的に最適化することができる。
本研究では,提案手法が有望なAE音声選択性能を実現することを実験的に示す。
- 参考スコア(独自算出の注目度): 80.39556433896172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being able to control the acoustic events (AEs) to which we want to listen
would allow the development of more controllable hearable devices. This paper
addresses the AE sound selection (or removal) problems, that we define as the
extraction (or suppression) of all the sounds that belong to one or multiple
desired AE classes. Although this problem could be addressed with a combination
of source separation followed by AE classification, this is a sub-optimal way
of solving the problem. Moreover, source separation usually requires knowing
the maximum number of sources, which may not be practical when dealing with
AEs. In this paper, we propose instead a universal sound selection neural
network that enables to directly select AE sounds from a mixture given
user-specified target AE classes. The proposed framework can be explicitly
optimized to simultaneously select sounds from multiple desired AE classes,
independently of the number of sources in the mixture. We experimentally show
that the proposed method achieves promising AE sound selection performance and
could be generalized to mixtures with a number of sources that are unseen
during training.
- Abstract(参考訳): 耳を傾ける音響イベント(AE)を制御できれば、より制御可能な可聴デバイスの開発が可能になるでしょう。
本稿では,1つまたは複数の希望するaeクラスに属するすべての音の抽出(または抑制)として定義するae音選択(または除去)問題に対処する。
この問題は、ソース分離とAE分類の組み合わせで対処できるが、この問題を解くための準最適方法である。
さらに、ソース分離は通常、AEを扱う際には実用的でないソースの最大数を知る必要がある。
本稿では,ユーザが指定したAEクラスからAE音声を直接選択可能な,普遍的な音声選択ニューラルネットワークを提案する。
提案するフレームワークは、複数のAEクラスから音を同時に選択するように明示的に最適化することができる。
本研究では,提案手法が有望なae選択性能を達成し,訓練中に見当たらない多数の音源との混合に一般化できることを実験的に示す。
関連論文リスト
- Towards Robust Audiovisual Segmentation in Complex Environments with
Quantization-based Semantic Decomposition [49.465783009753885]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Class-Specific Semantic Reconstruction for Open Set Recognition [101.24781422480406]
オープンセット認識により、ディープニューラルネットワーク(DNN)は未知のクラスのサンプルを識別できる。
本稿では,自動エンコーダ(AE)とプロトタイプ学習を統合したCSSR(Class-Specific Semantic Reconstruction)を提案する。
複数のデータセットで実験を行った結果,提案手法は閉集合認識と開集合認識の両方において優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-07-05T16:25:34Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - What You See is Not What the Network Infers: Detecting Adversarial
Examples Based on Semantic Contradiction [14.313178290347293]
敵対的な例(AE)は、ディープニューラルネットワーク(DNN)の安全クリティカルドメインへの応用に深刻な脅威をもたらす。
本稿では,AEの本質に基づいた新しいAE検出フレームワークを提案する。
ContraNetは、特にアダプティブアタックにおいて、既存のソリューションよりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-01-24T13:15:31Z) - Zero-shot Audio Source Separation through Query-based Learning from
Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。
提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。
提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-15T05:13:43Z) - Self-Supervised Learning from Automatically Separated Sound Scenes [38.71803524843168]
本稿では,教師なしの自動音声分離を用いてラベルなし音声シーンを意味的にリンクされたビューに分解する。
入力混合物と自動的に分離された出力を関連付ける学習は、過去のアプローチよりも強い表現を生み出す。
論文 参考訳(メタデータ) (2021-05-05T15:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。