Fugu-MT 論文翻訳(概要): Benchmarks and leaderboards for sound demixing tasks

論文の概要: Benchmarks and leaderboards for sound demixing tasks

arxiv url: http://arxiv.org/abs/2305.07489v1
Date: Fri, 12 May 2023 14:00:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-15 12:50:44.290094
Title: Benchmarks and leaderboards for sound demixing tasks
Title（参考訳）: サウンドデミックスタスクのためのベンチマークとリーダーボード
Authors: Roman Solovyev, Alexander Stempkovskiy, Tatiana Habruseva
Abstract要約: 音源分離タスクのための2つの新しいベンチマークを導入する。これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
参考スコア（独自算出の注目度）: 68.8204255655161
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Music demixing is the task of separating different tracks from the given single audio signal into components, such as drums, bass, and vocals from the rest of the accompaniment. Separation of sources is useful for a range of areas, including entertainment and hearing aids. In this paper, we introduce two new benchmarks for the sound source separation tasks and compare popular models for sound demixing, as well as their ensembles, on these benchmarks. For the models' assessments, we provide the leaderboard at https://mvsep.com/quality_checker/, giving a comparison for a range of models. The new benchmark datasets are available for download. We also develop a novel approach for audio separation, based on the ensembling of different models that are suited best for the particular stem. The proposed solution was evaluated in the context of the Music Demixing Challenge 2023 and achieved top results in different tracks of the challenge. The code and the approach are open-sourced on GitHub.
Abstract（参考訳）: 音楽のデミックスは、与えられた単一のオーディオ信号から、ドラム、ベース、ボーカルといったコンポーネントに、他の伴奏から異なるトラックを分離するタスクである。情報源の分離はエンターテイメントや補聴器など様々な分野で有用である。本稿では、音源分離タスクのための2つの新しいベンチマークを導入し、これらのベンチマークで一般的な音源分離モデルとそれらのアンサンブルを比較した。モデルの評価については、https://mvsep.com/quality_checker/でリーダボードを提供し、さまざまなモデルの比較を行います。新しいベンチマークデータセットはダウンロード可能だ。また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。提案手法は,音楽デミックス課題2023の文脈で評価され,課題の異なるトラックでトップ結果を得た。コードとアプローチはgithubで公開されている。

関連論文リスト

Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
Seeing Speech and Sound: Distinguishing and Locating Audios in Visual Scenes [16.530816405275715]
本稿では,音声と非音声の両方を同時に視覚的シーン内でグラウンド化できる統一モデルを提案する。既存のアプローチは、通常、音声または非音声のどちらかを独立に、あるいはせいぜい一緒に扱うことに限定されるが、連続的に混合しない。
論文参考訳（メタデータ） (2025-03-24T16:56:04Z)
Separate This, and All of these Things Around It: Music Source Separation via Hyperellipsoidal Queries [53.30852012059025]
音源分離は音声から音声までの検索作業である。音楽ソース分離における最近の研究は、固定状態パラダイムに挑戦し始めている。本稿では,超楕円体領域をクエリとして使用することにより,ターゲット(位置)とスプレッドの両方を指定するための直感的かつ容易にパラメトリザブルなアプローチを提案する。
論文参考訳（メタデータ） (2025-01-27T16:13:50Z)
MMAudio: Taming Multimodal Joint Training for High-Quality Video-to-Audio Synthesis [56.01110988816489]
マルチモーダル・ジョイント・トレーニング・フレームワークであるMMAudioを用いて、高品質で同期化された音声、ビデオ、オプションのテキスト条件を合成することを提案する。 MMAudioは大規模で手軽に利用できるテキストオーディオデータを共同でトレーニングし、セマンティックに整合した高品質なオーディオサンプルを生成する。 MMAudioはテキスト・オーディオ・ジェネレーションにおいて驚くほどの競争力を発揮し、ジョイントトレーニングが単一モダリティのパフォーマンスを妨げないことを示す。
論文参考訳（メタデータ） (2024-12-19T18:59:55Z)
Beyond Single-Audio: Advancing Multi-Audio Processing in Audio Large Language Models [56.776580717999806]
現実世界のアプリケーションは、複数のオーディオストリームを同時に処理することが多い。 11のマルチオーディオタスクから20のデータセットからなる最初のマルチオーディオ評価ベンチマークを提案する。本稿では,複数の類似した音声間の音声コンテキストをキャプチャするマルチオーディオLLM(MALLM)を提案する。
論文参考訳（メタデータ） (2024-09-27T12:06:53Z)
Semantic Grouping Network for Audio Source Separation [41.54814517077309]
本稿では,SGNと呼ばれる新しいセマンティックグルーピングネットワークを提案する。 MUSIC, FUSS, MUSDB18, VGG-Sound という,音楽のみと普遍的な音分離ベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2024-07-04T08:37:47Z)
AudioFormer: Audio Transformer learns audio feature representations from discrete acoustic codes [6.375996974877916]
離散音響符号の取得により音声特徴表現を学習するAudioFormerという手法を提案する。以上の結果から,AudioFormerはモノモーダル音声分類モデルに比べて性能が大幅に向上したことが示された。
論文参考訳（メタデータ） (2023-08-14T15:47:25Z)
Separate Anything You Describe [55.0784713558149]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文参考訳（メタデータ） (2023-08-09T16:09:44Z)
High-Quality Visually-Guided Sound Separation from Diverse Categories [56.92841782969847]
DAVISは拡散に基づくオーディオ視覚分離フレームワークである。分離された音をガウス雑音から直接合成し、オーディオミックスと視覚情報の両方に条件付けする。 AVEおよびMUSICデータセット上で,DAVISを既存の最先端の識別的音声視覚分離法と比較した。
論文参考訳（メタデータ） (2023-07-31T19:41:49Z)
AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文参考訳（メタデータ） (2022-09-30T10:17:05Z)
Zero-shot Audio Source Separation through Query-based Learning from Weakly-labeled Data [26.058278155958668]
本稿では,大規模だがラベルの弱いデータセットであるAudioSetから,ユニバーサルオーディオソースセパレータをトレーニングするための3成分パイプラインを提案する。提案手法は,複数の音源の音源分離に単一モデルを用い,弱いラベル付きデータにのみ依存する。提案したオーディオセパレータはゼロショット設定で使用することができ、トレーニングで見たことのない種類のオーディオソースを分離することを学ぶことができる。
論文参考訳（メタデータ） (2021-12-15T05:13:43Z)
Audio-Visual Synchronisation in the wild [149.84890978170174]
我々は,VGG-Sound Syncという,高い音声・視覚相関を持つテストセットを同定し,キュレートする。任意の長さの音響信号と視覚信号のモデル化に特化して設計された,トランスフォーマーに基づく多数のアーキテクチャ変種を比較した。我々は,新しいVGG-Sound Syncビデオデータセットにおいて,160以上の多様なクラスと一般的な音声-視覚同期のための最初のベンチマークを設定した。
論文参考訳（メタデータ） (2021-12-08T17:50:26Z)
Modeling the Compatibility of Stem Tracks to Generate Music Mashups [6.922825755771942]
音楽マッシュアップは、2つ以上の曲のオーディオ要素を組み合わせて新しい作品を作成する。研究は、オーディオ要素の互換性を予測するアルゴリズムを開発した。
論文参考訳（メタデータ） (2021-03-26T01:51:11Z)
Leveraging Category Information for Single-Frame Visual Sound Source Separation [15.26733033527393]
単一のビデオフレームのみを用いて,視覚的音源分離のための簡易かつ効率的なモデルについて検討する。我々のモデルは分離過程における音源カテゴリの情報を利用することができる。
論文参考訳（メタデータ） (2020-07-15T20:35:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。