論文の概要: DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion
Models
- arxiv url: http://arxiv.org/abs/2308.00122v1
- Date: Mon, 31 Jul 2023 19:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 16:31:29.681553
- Title: DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion
Models
- Title(参考訳): DAVIS:生成拡散モデルを用いた高品質オーディオ・ビジュアル分離
- Authors: Chao Huang, Susan Liang, Yapeng Tian, Anurag Kumar, Chenliang Xu
- Abstract要約: DAVISはディフュージョンモデルに基づくオーディオビザ分離フレームワークであり、音声-視覚的音源分離タスクを生成的方法で解決する。
DAVISを、ドメイン固有のMUSICデータセットとオープンドメインAVEデータセット上で、既存の最先端の識別的オーディオ視覚分離手法と比較する。
以上の結果から,DAVISは他の手法よりも品質が優れており,音声・視覚的音源分離タスクに対処するためのフレームワークの利点が示された。
- 参考スコア(独自算出の注目度): 49.62299756133055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose DAVIS, a Diffusion model-based Audio-VIusal Separation framework
that solves the audio-visual sound source separation task through a generative
manner. While existing discriminative methods that perform mask regression have
made remarkable progress in this field, they face limitations in capturing the
complex data distribution required for high-quality separation of sounds from
diverse categories. In contrast, DAVIS leverages a generative diffusion model
and a Separation U-Net to synthesize separated magnitudes starting from
Gaussian noises, conditioned on both the audio mixture and the visual footage.
With its generative objective, DAVIS is better suited to achieving the goal of
high-quality sound separation across diverse categories. We compare DAVIS to
existing state-of-the-art discriminative audio-visual separation methods on the
domain-specific MUSIC dataset and the open-domain AVE dataset, and results show
that DAVIS outperforms other methods in separation quality, demonstrating the
advantages of our framework for tackling the audio-visual source separation
task.
- Abstract(参考訳): 我々は拡散モデルに基づく音響-振動分離フレームワークであるdavisを提案し,音声-視覚音源分離タスクを生成的手法で解く。
マスク回帰を行う既存の識別手法はこの分野で顕著な進歩を遂げてきたが、様々なカテゴリーから高品質な音の分離に必要な複雑なデータ分布を捉えるのに限界に直面している。
対照的に、デービスは生成拡散モデルと分離u-netを利用してガウス雑音から分離した等級を合成し、音声混合と映像の両方で条件付けする。
DAVISは、その生成目的により、様々なカテゴリーで高品質な音分離の目標を達成するのに適している。
DAVISを、ドメイン固有のMUSICデータセットとオープンドメインAVVデータセット上の既存の最先端の識別的オーディオ視覚分離手法と比較した結果、DAVISは分離品質において他の手法よりも優れており、オーディオ視覚ソース分離タスクに対処するためのフレームワークの利点を実証している。
関連論文リスト
- An Ensemble Approach to Music Source Separation: A Comparative Analysis of Conventional and Hierarchical Stem Separation [0.4893345190925179]
音源分離(英: Music Source separation、MSS)とは、音源を混合した音声信号から分離する作業である。
本稿では,複数の最先端アーキテクチャを組み合わせたMSSのアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-10-28T06:18:12Z) - LAVSS: Location-Guided Audio-Visual Spatial Audio Separation [52.44052357829296]
位置誘導型空間空間オーディオセパレータを提案する。
提案するLAVSSは,空間的オーディオと視覚的位置の相関に着想を得たものである。
さらに,事前学習したモノラル分離器を用いて,豊かなモノラル音からの知識を伝達し,空間的音声分離を促進する。
論文 参考訳(メタデータ) (2023-10-31T13:30:24Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Weakly-supervised Audio-visual Sound Source Detection and Separation [38.52168086518221]
本稿では,個々の物体の見た目と音の双方をネットワークが学習する,音声と視覚の協調手法を提案する。
音分離の文脈で弱教師付きオブジェクトセグメンテーションを導入する。
私たちのアーキテクチャはエンドツーエンドで学ぶことができ、追加の監視やバウンディングボックスの提案は必要ありません。
論文 参考訳(メタデータ) (2021-03-25T10:17:55Z) - Sep-Stereo: Visually Guided Stereophonic Audio Generation by Associating
Source Separation [96.18178553315472]
本稿では,ステレオ音声の生成を容易にするために,膨大な量のモノデータを活用することを提案する。
ステレオ生成とソース分離の両方を統合フレームワークであるSep-Stereoに統合します。
論文 参考訳(メタデータ) (2020-07-20T06:20:26Z) - Leveraging Category Information for Single-Frame Visual Sound Source
Separation [15.26733033527393]
単一のビデオフレームのみを用いて,視覚的音源分離のための簡易かつ効率的なモデルについて検討する。
我々のモデルは分離過程における音源カテゴリの情報を利用することができる。
論文 参考訳(メタデータ) (2020-07-15T20:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。