論文の概要: A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation
- arxiv url: http://arxiv.org/abs/2309.02539v3
- Date: Fri, 1 Dec 2023 22:43:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:35:45.371739
- Title: A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation
- Title(参考訳): 映像音源分離のための一般化帯域分割ニューラルネットワーク
- Authors: Karn N. Watcharasupat, Chih-Wei Wu, Yiwei Ding, Iroro Orife, Aaron J.
Hipple, Phillip A. Williams, Scott Kramer, Alexander Lerch, and William
Wolcott
- Abstract要約: 周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
- 参考スコア(独自算出の注目度): 39.45425155123186
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cinematic audio source separation is a relatively new subtask of audio source
separation, with the aim of extracting the dialogue, music, and effects stems
from their mixture. In this work, we developed a model generalizing the
Bandsplit RNN for any complete or overcomplete partitions of the frequency
axis. Psychoacoustically motivated frequency scales were used to inform the
band definitions which are now defined with redundancy for more reliable
feature extraction. A loss function motivated by the signal-to-noise ratio and
the sparsity-promoting property of the 1-norm was proposed. We additionally
exploit the information-sharing property of a common-encoder setup to reduce
computational complexity during both training and inference, improve separation
performance for hard-to-generalize classes of sounds, and allow flexibility
during inference time with detachable decoders. Our best model sets the state
of the art on the Divide and Remaster dataset with performance above the ideal
ratio mask for the dialogue stem.
- Abstract(参考訳): 映像音源分離は、音声音源分離の比較的新しいサブタスクであり、その混合物から対話、音楽、効果を抽出することを目的としている。
本研究では,周波数軸の完全あるいは過剰な分割に対してバンドスプリットRNNを一般化するモデルを開発した。
心理的に動機づけられた周波数尺度は、より信頼性の高い特徴抽出のために冗長性で定義されているバンド定義を知らせるために用いられた。
1-ノルムの信号対雑音比とスパーシティ・プロモーティング特性に動機づけられた損失関数を提案した。
さらに、共通エンコーダ構成の情報共有性を利用して、トレーニングと推論の両方における計算複雑性を低減し、音のクラスを一般化する際の分離性能を改善し、デタッチ可能なデコーダによる推論時間における柔軟性を実現する。
我々の最良のモデルは、対話stemの理想的な比マスクよりも高いパフォーマンスで分割とリマスターのデータセットに芸術の状態を設定します。
関連論文リスト
- Spectral Mapping of Singing Voices: U-Net-Assisted Vocal Segmentation [0.0]
本研究では,音楽スペクトログラムから発声成分を分離する手法を提案する。
我々は、短い時間フーリエ変換(STFT)を用いて、詳細な周波数時間スペクトログラムに音声波を抽出する。
我々は,歌唱音声成分を正確に分析・抽出することを目的とした,スペクトル画像のセグメント化のためのUNetニューラルネットワークを実装した。
論文 参考訳(メタデータ) (2024-05-30T13:47:53Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Audio-Visual Speech Separation in Noisy Environments with a Lightweight
Iterative Model [35.171785986428425]
雑音環境下での音声・視覚音声分離を行うために,AVLIT(Audio-Visual Lightweight ITerative Model)を提案する。
我々のアーキテクチャは、オーディオブランチとビデオブランチで構成されており、各モードの重みを共有する反復的なA-FRCNNブロックがある。
実験は、様々な音声のみのベースラインと音声視覚のベースラインに対して、両方の設定において、我々のモデルが優れていることを示す。
論文 参考訳(メタデータ) (2023-05-31T20:09:50Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Sudo rm -rf: Efficient Networks for Universal Audio Source Separation [32.851407723043806]
本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。
このネットワークのバックボーン構造は、SuDoRMRF(Sucessive DOwnsampling and Resampling of Multi-Resolution Features)である。
論文 参考訳(メタデータ) (2020-07-14T05:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。