論文の概要: AMSS-Net: Audio Manipulation on User-Specified Sources with Textual
Queries
- arxiv url: http://arxiv.org/abs/2104.13553v1
- Date: Wed, 28 Apr 2021 03:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:38:31.517743
- Title: AMSS-Net: Audio Manipulation on User-Specified Sources with Textual
Queries
- Title(参考訳): AMSS-Net:テキストクエリによるユーザ指定ソースの音声操作
- Authors: Woosung Choi, Minseok Kim, Marco A. Mart\'inez Ram\'irez, Jaehwa
Chung, Soonyoung Jung
- Abstract要約: 本稿では,与えられた記述に従って,特定のオーディオトラックのユーザ特定ソースにオーディオ変換を行うニューラルネットワークを提案する。
客観的なメトリクスと実証的検証によってAMSS-NetがいくつかのAMSSタスクのベースラインを上回っていることを示した。
- 参考スコア(独自算出の注目度): 1.4991111518581999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a neural network that performs audio transformations to
user-specified sources (e.g., vocals) of a given audio track according to a
given description while preserving other sources not mentioned in the
description. Audio Manipulation on a Specific Source (AMSS) is challenging
because a sound object (i.e., a waveform sample or frequency bin) is
`transparent'; it usually carries information from multiple sources, in
contrast to a pixel in an image. To address this challenging problem, we
propose AMSS-Net, which extracts latent sources and selectively manipulates
them while preserving irrelevant sources. We also propose an evaluation
benchmark for several AMSS tasks, and we show that AMSS-Net outperforms
baselines on several AMSS tasks via objective metrics and empirical
verification.
- Abstract(参考訳): 本稿では,ユーザが指定した音声トラックの音源(例えばボーカル)に対して,記述に記載されていない他の音源を保存しながら,所定の記述に従って音声変換を行うニューラルネットワークを提案する。
特定の音源(AMSS)の音声操作は、音声オブジェクト(波形サンプルまたは周波数ビン)が「透明」であるため困難である。
この課題に対処するため,我々は,潜在源を抽出し,無関係なソースを維持しながら選択的に操作するamss-netを提案する。
また,複数のAMSSタスクに対する評価ベンチマークを提案し,AMSS-Netが客観的なメトリクスと経験的検証によって,複数のAMSSタスクのベースラインよりも優れていることを示す。
関連論文リスト
- Towards Robust Audiovisual Segmentation in Complex Environments with
Quantization-based Semantic Decomposition [49.465783009753885]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - MASR: Multi-label Aware Speech Representation [36.2978180342839]
マルチラベル対応音声表現学習フレームワークMASRを提案する。
MASRは、複数の外部知識ソースを組み込むことで、メタデータ情報の利用を促進できる。
我々は、他の確立されたベンチマークに比べて、MASRの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-07-20T16:09:57Z) - Audio-Visual Grouping Network for Sound Localization from Mixtures [30.756247389435803]
従来の単一音源法では、主に音声と視覚の関連を、各画像内の音像の局所化の手がかりとして用いた。
入力オーディオと画像から各ソースのカテゴリごとのセマンティックな特徴を直接学習できる新しい音声視覚グループネットワークであるAVGNを提案する。
既存のマルチソース手法と比較して,我々の新しいフレームワークはフレキシブルな複数の音源をローカライズし,個々の音源に対してカテゴリ対応の音響視覚表現をアンタングル化することができる。
論文 参考訳(メタデータ) (2023-03-29T22:58:55Z) - MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with
Unknown Number of Sound Sources [56.41687729076406]
近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。
これらのアルゴリズムは通常、MISOと呼ばれる単一の出力(全ソースの空間的擬似スペクトル(SPS))にマルチチャンネルオーディオ入力をマッピングすることで達成される。
本稿では,SPS SPIE-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案し,これらの制約に対処する。
論文 参考訳(メタデータ) (2022-07-15T06:18:00Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。