論文の概要: Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
- arxiv url: http://arxiv.org/abs/2405.17842v1
- Date: Tue, 28 May 2024 05:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 20:16:52.321070
- Title: Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
- Title(参考訳): ディスクリミネータによる共同音声・ビデオ生成のための協調拡散
- Authors: Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: そこで本研究では,各単一モーダルモデルを用いて,各モーダルモデルに対して協調的に適切なサンプルを生成する手法を提案する。
理論的には、このガイダンスは最適判別器の勾配によって計算可能であることを示す。
いくつかのベンチマークデータセットに対する実験的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。
- 参考スコア(独自算出の注目度): 15.29891397291197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to construct an audio-video generative model with minimal computational cost by leveraging pre-trained single-modal generative models for audio and video. To achieve this, we propose a novel method that guides each single-modal model to cooperatively generate well-aligned samples across modalities. Specifically, given two pre-trained base diffusion models, we train a lightweight joint guidance module to adjust scores separately estimated by the base models to match the score of joint distribution over audio and video. We theoretically show that this guidance can be computed through the gradient of the optimal discriminator distinguishing real audio-video pairs from fake ones independently generated by the base models. On the basis of this analysis, we construct the joint guidance module by training this discriminator. Additionally, we adopt a loss function to make the gradient of the discriminator work as a noise estimator, as in standard diffusion models, stabilizing the gradient of the discriminator. Empirical evaluations on several benchmark datasets demonstrate that our method improves both single-modal fidelity and multi-modal alignment with a relatively small number of parameters.
- Abstract(参考訳): 本研究では,事前学習した単一モード生成モデルを利用して,最小計算コストのオーディオ映像生成モデルを構築することを目的とする。
そこで本研究では,各単一モーダルモデルをガイドして,各モーダルモデルに対して協調的に整合性のあるサンプルを生成する手法を提案する。
具体的には,2つの事前学習ベース拡散モデルが与えられた場合,ベースモデルによって別々に推定されるスコアをオーディオおよびビデオ上での関節分布のスコアに合わせるために,軽量な関節誘導モジュールを訓練する。
理論的には、このガイダンスは、ベースモデルによって独立に生成された偽の音声-ビデオ対を識別する最適な判別器の勾配によって計算可能であることを示す。
この分析に基づいて,この判別器を訓練して共同指導モジュールを構築する。
さらに,判別器の勾配を標準拡散モデルのようにノイズ推定器として機能させ,判別器の勾配を安定化させる損失関数を採用した。
いくつかのベンチマークデータセットに対する実証的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。
関連論文リスト
- On Sampling Strategies for Spectral Model Sharding [7.185534285278903]
本研究では,そのようなシャーディングのための2つのサンプリング戦略を提案する。
第1は元の重みの偏りのない推定器を生成し、第2は正方形の近似誤差を最小限にすることを目的としている。
これら2つの手法が,様々な一般的なデータセットの性能向上につながることを実証した。
論文 参考訳(メタデータ) (2024-10-31T16:37:25Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating
and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。
当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文 参考訳(メタデータ) (2021-02-17T18:25:30Z) - Unified Gradient Reweighting for Model Biasing with Applications to
Source Separation [27.215800308343322]
本稿では,モデルの学習過程を偏り,一定の結果の分布に向かわせるための,単純で統一的な勾配再重み付け手法を提案する。
本手法を様々な音源分離タスクに適用し,モデルの動作点を異なる目的にシフトさせる。
我々のフレームワークは、ユーザーが最悪のパフォーマンスと平均パフォーマンスの間の堅牢性トレードオフを制御できるようにします。
論文 参考訳(メタデータ) (2020-10-25T21:41:45Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。