論文の概要: Listen to What You Want: Neural Network-based Universal Sound Selector
- arxiv url: http://arxiv.org/abs/2006.05712v1
- Date: Wed, 10 Jun 2020 08:06:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 06:34:52.971206
- Title: Listen to What You Want: Neural Network-based Universal Sound Selector
- Title(参考訳): ニューラルネットワークをベースとするユニバーサルサウンドセレクタ
- Authors: Tsubasa Ochiai, Marc Delcroix, Yuma Koizumi, Hiroaki Ito, Keisuke
Kinoshita, Shoko Araki
- Abstract要約: 本稿では,ユーザが指定したAEクラスからAE音声を直接選択できる汎用音声選択ニューラルネットワークを提案する。
提案するフレームワークは、複数の希望するAEクラスから音を同時に選択するように明示的に最適化することができる。
本研究では,提案手法が有望なAE音声選択性能を実現することを実験的に示す。
- 参考スコア(独自算出の注目度): 80.39556433896172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Being able to control the acoustic events (AEs) to which we want to listen
would allow the development of more controllable hearable devices. This paper
addresses the AE sound selection (or removal) problems, that we define as the
extraction (or suppression) of all the sounds that belong to one or multiple
desired AE classes. Although this problem could be addressed with a combination
of source separation followed by AE classification, this is a sub-optimal way
of solving the problem. Moreover, source separation usually requires knowing
the maximum number of sources, which may not be practical when dealing with
AEs. In this paper, we propose instead a universal sound selection neural
network that enables to directly select AE sounds from a mixture given
user-specified target AE classes. The proposed framework can be explicitly
optimized to simultaneously select sounds from multiple desired AE classes,
independently of the number of sources in the mixture. We experimentally show
that the proposed method achieves promising AE sound selection performance and
could be generalized to mixtures with a number of sources that are unseen
during training.
- Abstract(参考訳): 耳を傾ける音響イベント(AE)を制御できれば、より制御可能な可聴デバイスの開発が可能になるでしょう。
本稿では,1つまたは複数の希望するaeクラスに属するすべての音の抽出(または抑制)として定義するae音選択(または除去)問題に対処する。
この問題は、ソース分離とAE分類の組み合わせで対処できるが、この問題を解くための準最適方法である。
さらに、ソース分離は通常、AEを扱う際には実用的でないソースの最大数を知る必要がある。
本稿では,ユーザが指定したAEクラスからAE音声を直接選択可能な,普遍的な音声選択ニューラルネットワークを提案する。
提案するフレームワークは、複数のAEクラスから音を同時に選択するように明示的に最適化することができる。
本研究では,提案手法が有望なae選択性能を達成し,訓練中に見当たらない多数の音源との混合に一般化できることを実験的に示す。
関連論文リスト
- OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。
トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。
我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文 参考訳(メタデータ) (2024-10-28T17:58:15Z) - OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation [9.453883041423468]
我々は,大規模言語モデル(LLM)を利用して自動音声分離を行う新しいフレームワークであるOpenSepを提案する。
OpenSepはテキストインバージョンを使用して、市販のオーディオキャプションモデルとオーディオミックスからキャプションを生成し、現在ある音源を効果的に解析する。
その後、数発のLCMを使用して、パースされたソースの詳細なオーディオ特性を抽出し、目に見えない混合物の分離を容易にする。
論文 参考訳(メタデータ) (2024-09-28T06:59:52Z) - Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。
具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。
トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文 参考訳(メタデータ) (2023-08-14T17:29:41Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Class-Specific Semantic Reconstruction for Open Set Recognition [101.24781422480406]
オープンセット認識により、ディープニューラルネットワーク(DNN)は未知のクラスのサンプルを識別できる。
本稿では,自動エンコーダ(AE)とプロトタイプ学習を統合したCSSR(Class-Specific Semantic Reconstruction)を提案する。
複数のデータセットで実験を行った結果,提案手法は閉集合認識と開集合認識の両方において優れた性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-07-05T16:25:34Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Self-Supervised Learning from Automatically Separated Sound Scenes [38.71803524843168]
本稿では,教師なしの自動音声分離を用いてラベルなし音声シーンを意味的にリンクされたビューに分解する。
入力混合物と自動的に分離された出力を関連付ける学習は、過去のアプローチよりも強い表現を生み出す。
論文 参考訳(メタデータ) (2021-05-05T15:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。