Fugu-MT 論文翻訳(概要): AMSS-Net: Audio Manipulation on User-Specified Sources with Textual Queries

論文の概要: AMSS-Net: Audio Manipulation on User-Specified Sources with Textual Queries

arxiv url: http://arxiv.org/abs/2104.13553v1
Date: Wed, 28 Apr 2021 03:27:01 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-29 12:38:31.517743
Title: AMSS-Net: Audio Manipulation on User-Specified Sources with Textual Queries
Title（参考訳）: AMSS-Net:テキストクエリによるユーザ指定ソースの音声操作
Authors: Woosung Choi, Minseok Kim, Marco A. Mart\'inez Ram\'irez, Jaehwa Chung, Soonyoung Jung
Abstract要約: 本稿では,与えられた記述に従って,特定のオーディオトラックのユーザ特定ソースにオーディオ変換を行うニューラルネットワークを提案する。客観的なメトリクスと実証的検証によってAMSS-NetがいくつかのAMSSタスクのベースラインを上回っていることを示した。
参考スコア（独自算出の注目度）: 1.4991111518581999
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper proposes a neural network that performs audio transformations to user-specified sources (e.g., vocals) of a given audio track according to a given description while preserving other sources not mentioned in the description. Audio Manipulation on a Specific Source (AMSS) is challenging because a sound object (i.e., a waveform sample or frequency bin) is `transparent'; it usually carries information from multiple sources, in contrast to a pixel in an image. To address this challenging problem, we propose AMSS-Net, which extracts latent sources and selectively manipulates them while preserving irrelevant sources. We also propose an evaluation benchmark for several AMSS tasks, and we show that AMSS-Net outperforms baselines on several AMSS tasks via objective metrics and empirical verification.
Abstract（参考訳）: 本稿では,ユーザが指定した音声トラックの音源(例えばボーカル)に対して,記述に記載されていない他の音源を保存しながら,所定の記述に従って音声変換を行うニューラルネットワークを提案する。特定の音源(AMSS)の音声操作は、音声オブジェクト(波形サンプルまたは周波数ビン)が「透明」であるため困難である。この課題に対処するため,我々は,潜在源を抽出し,無関係なソースを維持しながら選択的に操作するamss-netを提案する。また,複数のAMSSタスクに対する評価ベンチマークを提案し,AMSS-Netが客観的なメトリクスと経験的検証によって,複数のAMSSタスクのベースラインよりも優れていることを示す。

関連論文リスト

Synthetic Speech Source Tracing using Metric Learning [18.16033398335838]
本稿では,話者認識に触発されたパイプラインによる音声の操作を支援する合成音声識別システムにおける音源追跡について述べる。分類ベースとメートル法学習の2つのアプローチを評価する。その結果、ResNetはメトリック学習アプローチと競合し、SSLベースのシステムを超えていることがわかった。
論文参考訳（メタデータ） (2025-06-03T08:12:15Z)
Score Distillation Sampling for Audio: Source Separation, Synthesis, and Beyond [33.274042377037176]
本稿では,テキスト条件付き音声拡散モデルに対するスコア蒸留サンプリング(SDS)の一般化であるAudio-SDSを紹介する。本研究では,Audio-SDSが物理的に情報を得た衝撃音のシミュレーション,FM合成パラメータの校正,即時特定音源分離を行う方法を示す。
論文参考訳（メタデータ） (2025-05-07T17:59:38Z)
SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。 SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。 Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文参考訳（メタデータ） (2024-11-07T18:12:49Z)
Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。 MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-04T08:37:47Z)
T-VSL: Text-Guided Visual Sound Source Localization in Mixtures [33.28678401737415]
マルチソース・ミックスからオーディオ・ビジュアル・ソース・コンパレンスをアンタングルするフレームワークを開発する。我々のフレームワークは、テスト期間中に見つからないクラスに対して、ゼロショットの転送可能性を示す。 MUSIC、VGGSound、VGGSound-Instrumentsデータセットで実施された実験は、最先端の手法よりも大幅に性能が向上したことを示している。
論文参考訳（メタデータ） (2024-04-02T09:07:05Z)
QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-09-29T20:48:44Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
MIMO-DoAnet: Multi-channel Input and Multiple Outputs DoA Network with Unknown Number of Sound Sources [56.41687729076406]
近年のニューラルネットワークに基づくDorion of Arrival (DoA)推定アルゴリズムは,未知数の音源シナリオでよく機能している。これらのアルゴリズムは通常、MISOと呼ばれる単一の出力(全ソースの空間的擬似スペクトル(SPS))にマルチチャンネルオーディオ入力をマッピングすることで達成される。本稿では,SPS SPIE-DoAnetと呼ばれる新しいマルチチャネル入力と複数出力DoAネットワークを提案し,これらの制約に対処する。
論文参考訳（メタデータ） (2022-07-15T06:18:00Z)
Separate What You Describe: Language-Queried Audio Source Separation [53.65665794338574]
言語問合せ音声ソース分離(LASS)の課題について紹介する。 LASSは、ターゲットソースの自然言語クエリに基づいて、ターゲットソースをオーディオミックスから分離することを目的としている。本稿では,音響情報と言語情報を協調処理するエンドツーエンドニューラルネットワークLASS-Netを提案する。
論文参考訳（メタデータ） (2022-03-28T23:47:57Z)
Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2021-09-24T13:40:51Z)
Dual Normalization Multitasking for Audio-Visual Sounding Object Localization [0.0]
本研究では,音の視覚的位置のあいまいさを軽減するため,新しい概念である音場オブジェクトを提案する。この新たなAVSOL問題に対処するために、デュアル正規化マルチタスクと呼ばれる新しいマルチタスクトレーニング戦略とアーキテクチャを提案する。
論文参考訳（メタデータ） (2021-06-01T02:02:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。