Fugu-MT 論文翻訳(概要): A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation

論文の概要: A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation

arxiv url: http://arxiv.org/abs/2309.02539v3
Date: Fri, 1 Dec 2023 22:43:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 22:35:45.371739
Title: A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation
Title（参考訳）: 映像音源分離のための一般化帯域分割ニューラルネットワーク
Authors: Karn N. Watcharasupat, Chih-Wei Wu, Yiwei Ding, Iroro Orife, Aaron J. Hipple, Phillip A. Williams, Scott Kramer, Alexander Lerch, and William Wolcott
Abstract要約: 周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
参考スコア（独自算出の注目度）: 39.45425155123186
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Cinematic audio source separation is a relatively new subtask of audio source separation, with the aim of extracting the dialogue, music, and effects stems from their mixture. In this work, we developed a model generalizing the Bandsplit RNN for any complete or overcomplete partitions of the frequency axis. Psychoacoustically motivated frequency scales were used to inform the band definitions which are now defined with redundancy for more reliable feature extraction. A loss function motivated by the signal-to-noise ratio and the sparsity-promoting property of the 1-norm was proposed. We additionally exploit the information-sharing property of a common-encoder setup to reduce computational complexity during both training and inference, improve separation performance for hard-to-generalize classes of sounds, and allow flexibility during inference time with detachable decoders. Our best model sets the state of the art on the Divide and Remaster dataset with performance above the ideal ratio mask for the dialogue stem.
Abstract（参考訳）: 映像音源分離は、音声音源分離の比較的新しいサブタスクであり、その混合物から対話、音楽、効果を抽出することを目的としている。本研究では,周波数軸の完全あるいは過剰な分割に対してバンドスプリットRNNを一般化するモデルを開発した。心理的に動機づけられた周波数尺度は、より信頼性の高い特徴抽出のために冗長性で定義されているバンド定義を知らせるために用いられた。 1-ノルムの信号対雑音比とスパーシティ・プロモーティング特性に動機づけられた損失関数を提案した。さらに、共通エンコーダ構成の情報共有性を利用して、トレーニングと推論の両方における計算複雑性を低減し、音のクラスを一般化する際の分離性能を改善し、デタッチ可能なデコーダによる推論時間における柔軟性を実現する。我々の最良のモデルは、対話stemの理想的な比マスクよりも高いパフォーマンスで分割とリマスターのデータセットに芸術の状態を設定します。

関連論文リスト

Learning to Upsample and Upmix Audio in the Latent Domain [13.82572699087732]
ニューラルオーディオオートエンコーダは、知覚的に重要な情報を保持するコンパクトな潜在表現を生成する。本稿では,オートエンコーダの潜在空間内で音声処理を行うフレームワークを提案する。生音声における後処理に匹敵する品質を維持しつつ,最大100倍の計算効率向上を示す。
論文参考訳（メタデータ） (2025-05-31T19:27:22Z)
Unleashing the Power of Natural Audio Featuring Multiple Sound Sources [54.38251699625379]
ユニバーサルサウンド分離は、混合音声から異なるイベントに対応するクリーンなオーディオトラックを抽出することを目的としている。複雑な混合音声を複数の独立したトラックに分解するために,データエンジンを利用するフレームワークであるClearSepを提案する。実験では、ClearSepは複数の音分離タスクで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-24T17:58:21Z)
Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation [0.0]
本研究では,音楽スペクトログラムから発声成分を分離する手法を提案する。我々は、短い時間フーリエ変換(STFT)を用いて、詳細な周波数時間スペクトログラムに音声波を抽出する。我々は,歌唱音声成分を正確に分析・抽出することを目的とした,スペクトル画像のセグメント化のためのUNetニューラルネットワークを実装した。
論文参考訳（メタデータ） (2024-05-30T13:47:53Z)
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。 RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文参考訳（メタデータ） (2023-09-29T12:38:00Z)
Visually-Guided Sound Source Separation with Audio-Visual Predictive Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文参考訳（メタデータ） (2023-06-19T03:10:57Z)
Audio-Visual Speech Separation in Noisy Environments with a Lightweight Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文参考訳（メタデータ） (2023-05-31T20:09:50Z)
High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文参考訳（メタデータ） (2022-10-24T17:52:02Z)
Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。 SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文参考訳（メタデータ） (2022-10-03T14:00:41Z)
Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2021-09-24T13:40:51Z)
Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文参考訳（メタデータ） (2021-03-25T15:39:12Z)
Sudo rm -rf: Efficient Networks for Universal Audio Source Separation [32.851407723043806]
本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。このネットワークのバックボーン構造は、SuDoRMRF(Sucessive DOwnsampling and Resampling of Multi-Resolution Features)である。
論文参考訳（メタデータ） (2020-07-14T05:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。