論文の概要: AMSS-Net: Audio Manipulation on User-Specified Sources with Textual
Queries
- arxiv url: http://arxiv.org/abs/2104.13553v1
- Date: Wed, 28 Apr 2021 03:27:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:38:31.517743
- Title: AMSS-Net: Audio Manipulation on User-Specified Sources with Textual
Queries
- Title(参考訳): AMSS-Net:テキストクエリによるユーザ指定ソースの音声操作
- Authors: Woosung Choi, Minseok Kim, Marco A. Mart\'inez Ram\'irez, Jaehwa
Chung, Soonyoung Jung
- Abstract要約: 本稿では,与えられた記述に従って,特定のオーディオトラックのユーザ特定ソースにオーディオ変換を行うニューラルネットワークを提案する。
客観的なメトリクスと実証的検証によってAMSS-NetがいくつかのAMSSタスクのベースラインを上回っていることを示した。
- 参考スコア(独自算出の注目度): 1.4991111518581999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a neural network that performs audio transformations to
user-specified sources (e.g., vocals) of a given audio track according to a
given description while preserving other sources not mentioned in the
description. Audio Manipulation on a Specific Source (AMSS) is challenging
because a sound object (i.e., a waveform sample or frequency bin) is
`transparent'; it usually carries information from multiple sources, in
contrast to a pixel in an image. To address this challenging problem, we
propose AMSS-Net, which extracts latent sources and selectively manipulates
them while preserving irrelevant sources. We also propose an evaluation
benchmark for several AMSS tasks, and we show that AMSS-Net outperforms
baselines on several AMSS tasks via objective metrics and empirical
verification.
- Abstract(参考訳): 本稿では,ユーザが指定した音声トラックの音源(例えばボーカル)に対して,記述に記載されていない他の音源を保存しながら,所定の記述に従って音声変換を行うニューラルネットワークを提案する。
特定の音源(AMSS)の音声操作は、音声オブジェクト(波形サンプルまたは周波数ビン)が「透明」であるため困難である。
この課題に対処するため,我々は,潜在源を抽出し,無関係なソースを維持しながら選択的に操作するamss-netを提案する。
また,複数のAMSSタスクに対する評価ベンチマークを提案し,AMSS-Netが客観的なメトリクスと経験的検証によって,複数のAMSSタスクのベースラインよりも優れていることを示す。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。
MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-07-04T08:37:47Z) - T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。
我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。
MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文 参考訳(メタデータ) (2024-04-02T09:07:05Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with
Unknown Number of Sound Sources [56.41687729076406]
近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。
これらのアルゴリズムは通常、MISOと呼ばれる単一の出力(全ソースの空間的擬似スペクトル(SPS))にマルチチャンネルオーディオ入力をマッピングすることで達成される。
本稿では,SPS SPIE-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案し,これらの制約に対処する。
論文 参考訳(メタデータ) (2022-07-15T06:18:00Z) - Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。
LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。
本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文 参考訳(メタデータ) (2022-03-28T23:47:57Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Dual Normalization Multitasking for Audio-Visual Sounding Object
Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。
この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-06-01T02:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。