Fugu-MT 論文翻訳(概要): Listen to What You Want: Neural Network-based Universal Sound Selector

論文の概要: Listen to What You Want: Neural Network-based Universal Sound Selector

arxiv url: http://arxiv.org/abs/2006.05712v1
Date: Wed, 10 Jun 2020 08:06:02 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-23 06:34:52.971206
Title: Listen to What You Want: Neural Network-based Universal Sound Selector
Title（参考訳）: ニューラルネットワークをベースとするユニバーサルサウンドセレクタ
Authors: Tsubasa Ochiai, Marc Delcroix, Yuma Koizumi, Hiroaki Ito, Keisuke Kinoshita, Shoko Araki
Abstract要約: 本稿では,ユーザが指定したAEクラスからAE音声を直接選択できる汎用音声選択ニューラルネットワークを提案する。提案するフレームワークは、複数の希望するAEクラスから音を同時に選択するように明示的に最適化することができる。本研究では,提案手法が有望なAE音声選択性能を実現することを実験的に示す。
参考スコア（独自算出の注目度）: 80.39556433896172
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Being able to control the acoustic events (AEs) to which we want to listen would allow the development of more controllable hearable devices. This paper addresses the AE sound selection (or removal) problems, that we define as the extraction (or suppression) of all the sounds that belong to one or multiple desired AE classes. Although this problem could be addressed with a combination of source separation followed by AE classification, this is a sub-optimal way of solving the problem. Moreover, source separation usually requires knowing the maximum number of sources, which may not be practical when dealing with AEs. In this paper, we propose instead a universal sound selection neural network that enables to directly select AE sounds from a mixture given user-specified target AE classes. The proposed framework can be explicitly optimized to simultaneously select sounds from multiple desired AE classes, independently of the number of sources in the mixture. We experimentally show that the proposed method achieves promising AE sound selection performance and could be generalized to mixtures with a number of sources that are unseen during training.
Abstract（参考訳）: 耳を傾ける音響イベント(AE)を制御できれば、より制御可能な可聴デバイスの開発が可能になるでしょう。本稿では,1つまたは複数の希望するaeクラスに属するすべての音の抽出(または抑制)として定義するae音選択(または除去)問題に対処する。この問題は、ソース分離とAE分類の組み合わせで対処できるが、この問題を解くための準最適方法である。さらに、ソース分離は通常、AEを扱う際には実用的でないソースの最大数を知る必要がある。本稿では,ユーザが指定したAEクラスからAE音声を直接選択可能な,普遍的な音声選択ニューラルネットワークを提案する。提案するフレームワークは、複数のAEクラスから音を同時に選択するように明示的に最適化することができる。本研究では,提案手法が有望なae選択性能を達成し,訓練中に見当たらない多数の音源との混合に一般化できることを実験的に示す。

関連論文リスト

DGMO: Training-Free Audio Source Separation through Diffusion-Guided Mask Optimization [6.6567375919025995]
言語クエリされたオーディオソース分離(LASS)は、自然言語クエリによるオープン語彙の分離を可能にする。ゼロショットLASSにおける生成前処理を利用した学習自由フレームワークを提案する。提案手法は,ソース分離のための事前学習拡散モデルを効果的に再利用し,タスク固有の監督なしに競争性能を達成する。
論文参考訳（メタデータ） (2025-06-03T13:24:57Z)
Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-01-27T16:13:50Z)
OmniSep: Unified Omni-Modality Sound Separation with Query-Mixup [50.70494796172493]
Omni-modal Sound separation (OmniSep) は、Omni-modal クエリに基づいてクリーンなサウンドトラックを分離できる新しいフレームワークである。トレーニング中に異なるモダリティからクエリ機能をブレンドするQuery-Mixup戦略を導入する。我々は、クエリーが音の分離に肯定的または否定的に影響を与え、特定の音の保持や除去を容易にすることにより、この柔軟性をさらに強化する。
論文参考訳（メタデータ） (2024-10-28T17:58:15Z)
OpenSep: Leveraging Large Language Models with Textual Inversion for Open World Audio Separation [9.453883041423468]
我々は,大規模言語モデル(LLM)を利用して自動音声分離を行う新しいフレームワークであるOpenSepを提案する。 OpenSepはテキストインバージョンを使用して、市販のオーディオキャプションモデルとオーディオミックスからキャプションを生成し、現在ある音源を効果的に解析する。その後、数発のLCMを使用して、パースされたソースの詳細なオーディオ特性を抽出し、目に見えない混合物の分離を容易にする。
論文参考訳（メタデータ） (2024-09-28T06:59:52Z)
Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文参考訳（メタデータ） (2024-07-16T14:11:44Z)
A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文参考訳（メタデータ） (2023-09-05T19:19:22Z)
DiffSED: Sound Event Detection with Denoising Diffusion [70.18051526555512]
生成学習の観点からSED問題を再構築する。具体的には,騒音拡散過程において,雑音のある提案から音の時間境界を生成することを目的としている。トレーニング中は,ノイズの多い遅延クエリを基本バージョンに変換することで,ノイズ発生過程の逆転を学習する。
論文参考訳（メタデータ） (2023-08-14T17:29:41Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
Class-Specific Semantic Reconstruction for Open Set Recognition [101.24781422480406]
オープンセット認識により、ディープニューラルネットワーク(DNN)は未知のクラスのサンプルを識別できる。本稿では,自動エンコーダ(AE)とプロトタイプ学習を統合したCSSR(Class-Specific Semantic Reconstruction)を提案する。複数のデータセットで実験を行った結果,提案手法は閉集合認識と開集合認識の両方において優れた性能を発揮することがわかった。
論文参考訳（メタデータ） (2022-07-05T16:25:34Z)
Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。 LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文参考訳（メタデータ） (2022-03-28T23:47:57Z)
Self-Supervised Learning from Automatically Separated Sound Scenes [38.71803524843168]
本稿では,教師なしの自動音声分離を用いてラベルなし音声シーンを意味的にリンクされたビューに分解する。入力混合物と自動的に分離された出力を関連付ける学習は、過去のアプローチよりも強い表現を生み出す。
論文参考訳（メタデータ） (2021-05-05T15:37:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。