論文の概要: DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion
Models
- arxiv url: http://arxiv.org/abs/2308.00122v1
- Date: Mon, 31 Jul 2023 19:41:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 16:31:29.681553
- Title: DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion
Models
- Title(参考訳): DAVIS:生成拡散モデルを用いた高品質オーディオ・ビジュアル分離
- Authors: Chao Huang, Susan Liang, Yapeng Tian, Anurag Kumar, Chenliang Xu
- Abstract要約: DAVISはディフュージョンモデルに基づくオーディオビザ分離フレームワークであり、音声-視覚的音源分離タスクを生成的方法で解決する。
DAVISを、ドメイン固有のMUSICデータセットとオープンドメインAVEデータセット上で、既存の最先端の識別的オーディオ視覚分離手法と比較する。
以上の結果から,DAVISは他の手法よりも品質が優れており,音声・視覚的音源分離タスクに対処するためのフレームワークの利点が示された。
- 参考スコア(独自算出の注目度): 49.62299756133055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose DAVIS, a Diffusion model-based Audio-VIusal Separation framework
that solves the audio-visual sound source separation task through a generative
manner. While existing discriminative methods that perform mask regression have
made remarkable progress in this field, they face limitations in capturing the
complex data distribution required for high-quality separation of sounds from
diverse categories. In contrast, DAVIS leverages a generative diffusion model
and a Separation U-Net to synthesize separated magnitudes starting from
Gaussian noises, conditioned on both the audio mixture and the visual footage.
With its generative objective, DAVIS is better suited to achieving the goal of
high-quality sound separation across diverse categories. We compare DAVIS to
existing state-of-the-art discriminative audio-visual separation methods on the
domain-specific MUSIC dataset and the open-domain AVE dataset, and results show
that DAVIS outperforms other methods in separation quality, demonstrating the
advantages of our framework for tackling the audio-visual source separation
task.
- Abstract(参考訳): 我々は拡散モデルに基づく音響-振動分離フレームワークであるdavisを提案し,音声-視覚音源分離タスクを生成的手法で解く。
マスク回帰を行う既存の識別手法はこの分野で顕著な進歩を遂げてきたが、様々なカテゴリーから高品質な音の分離に必要な複雑なデータ分布を捉えるのに限界に直面している。
対照的に、デービスは生成拡散モデルと分離u-netを利用してガウス雑音から分離した等級を合成し、音声混合と映像の両方で条件付けする。
DAVISは、その生成目的により、様々なカテゴリーで高品質な音分離の目標を達成するのに適している。
DAVISを、ドメイン固有のMUSICデータセットとオープンドメインAVVデータセット上の既存の最先端の識別的オーディオ視覚分離手法と比較した結果、DAVISは分離品質において他の手法よりも優れており、オーディオ視覚ソース分離タスクに対処するためのフレームワークの利点を実証している。
関連論文リスト
- DiffVein: A Unified Diffusion Network for Finger Vein Segmentation and
Authentication [50.017055360261665]
DiffVeinは、静脈分割と認証タスクを同時に処理する統合拡散モデルベースのフレームワークである。
これら2つのブランチ間の機能相互作用を改善するために,2つの特別なモジュールを導入する。
このようにして、我々のフレームワークは拡散とセグメンテーションの埋め込みの間の動的相互作用を可能にする。
論文 参考訳(メタデータ) (2024-02-03T06:49:42Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Improving Audio-Visual Segmentation with Bidirectional Generation [40.78395709407226]
音声・視覚的セグメンテーションのための双方向生成フレームワークを提案する。
この枠組みは、物体の視覚的特徴と関連する音との堅牢な相関関係を確立する。
また、時間力学を扱う暗黙の体積運動推定モジュールも導入する。
論文 参考訳(メタデータ) (2023-08-16T11:20:23Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and
Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。
MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。
実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2022-12-19T14:11:52Z) - MedleyVox: An Evaluation Dataset for Multiple Singing Voices Separation [10.456845656569444]
複数の歌声をそれぞれの声に分離することは、音源分離研究においてまれに研究される。
複数の歌声分離のための評価データセットであるMedleyVoxを紹介する。
そこで本研究では,複数の歌唱ミックスを構築するためのストラテジーについて述べる。
論文 参考訳(メタデータ) (2022-11-14T12:27:35Z) - Visual Scene Graphs for Audio Source Separation [65.47212419514761]
視覚的に誘導された音源分離のための最先端のアプローチは、典型的には楽器のような特徴的な音を持つ音源を仮定する。
本稿では,シーンの視覚構造をグラフとして埋め込んだ新しい深層学習モデルであるAudio Visual Scene Graph Segmenter (AVSGS)を提案する。
我々のパイプラインは、人工混合音から視覚グラフを用いて音源を分離する自己教師タスクにより、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2021-09-24T13:40:51Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。