論文の概要: Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
- arxiv url: http://arxiv.org/abs/2405.17842v1
- Date: Tue, 28 May 2024 05:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 20:16:52.321070
- Title: Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
- Title(参考訳): ディスクリミネータによる共同音声・ビデオ生成のための協調拡散
- Authors: Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji,
- Abstract要約: そこで本研究では,各単一モーダルモデルを用いて,各モーダルモデルに対して協調的に適切なサンプルを生成する手法を提案する。
理論的には、このガイダンスは最適判別器の勾配によって計算可能であることを示す。
いくつかのベンチマークデータセットに対する実験的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。
- 参考スコア(独自算出の注目度): 15.29891397291197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we aim to construct an audio-video generative model with minimal computational cost by leveraging pre-trained single-modal generative models for audio and video. To achieve this, we propose a novel method that guides each single-modal model to cooperatively generate well-aligned samples across modalities. Specifically, given two pre-trained base diffusion models, we train a lightweight joint guidance module to adjust scores separately estimated by the base models to match the score of joint distribution over audio and video. We theoretically show that this guidance can be computed through the gradient of the optimal discriminator distinguishing real audio-video pairs from fake ones independently generated by the base models. On the basis of this analysis, we construct the joint guidance module by training this discriminator. Additionally, we adopt a loss function to make the gradient of the discriminator work as a noise estimator, as in standard diffusion models, stabilizing the gradient of the discriminator. Empirical evaluations on several benchmark datasets demonstrate that our method improves both single-modal fidelity and multi-modal alignment with a relatively small number of parameters.
- Abstract(参考訳): 本研究では,事前学習した単一モード生成モデルを利用して,最小計算コストのオーディオ映像生成モデルを構築することを目的とする。
そこで本研究では,各単一モーダルモデルをガイドして,各モーダルモデルに対して協調的に整合性のあるサンプルを生成する手法を提案する。
具体的には,2つの事前学習ベース拡散モデルが与えられた場合,ベースモデルによって別々に推定されるスコアをオーディオおよびビデオ上での関節分布のスコアに合わせるために,軽量な関節誘導モジュールを訓練する。
理論的には、このガイダンスは、ベースモデルによって独立に生成された偽の音声-ビデオ対を識別する最適な判別器の勾配によって計算可能であることを示す。
この分析に基づいて,この判別器を訓練して共同指導モジュールを構築する。
さらに,判別器の勾配を標準拡散モデルのようにノイズ推定器として機能させ,判別器の勾配を安定化させる損失関数を採用した。
いくつかのベンチマークデータセットに対する実証的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。
関連論文リスト
- Dimension-free Score Matching and Time Bootstrapping for Diffusion Models [11.743167854433306]
拡散モデルは、様々な雑音レベルにおける対象分布のスコア関数を推定してサンプルを生成する。
本研究では,これらのスコア関数を学習するために,次元自由なサンプル境界の複雑性を初めて(ほぼ)確立する。
我々の分析の重要な側面は、ノイズレベル間でのスコアを共同で推定する単一関数近似器を使用することである。
論文 参考訳(メタデータ) (2025-02-14T18:32:22Z) - Model-free Methods for Event History Analysis and Efficient Adjustment (PhD Thesis) [55.2480439325792]
この論文は、モデルフリーの観点から統一された統計学への独立した貢献のシリーズである。
第1章では、機械学習から予測技術を活用する柔軟なメソッドを定式化するために、モデルフリーの視点をどのように利用できるか、詳しく説明している。
第2章では、あるプロセスの進化が他のプロセスに直接影響されるかどうかを記述した地域独立の概念を研究している。
論文 参考訳(メタデータ) (2025-02-11T19:24:09Z) - Generative Lines Matching Models [2.6089354079273512]
本研究では,2つの分布を補間する全直線に一致した新しい確率フローモデルを提案する。
その結果,LMMが生成する流れ場は時間的整合性に優れ,直線性スコアの優れた軌道が得られた。
全体として、LMMは確立されたベンチマークデータセット上で、最小限のNFEで最先端のFIDスコアを達成する。
論文 参考訳(メタデータ) (2024-12-09T11:33:38Z) - On Sampling Strategies for Spectral Model Sharding [7.185534285278903]
本研究では,そのようなシャーディングのための2つのサンプリング戦略を提案する。
第1は元の重みの偏りのない推定器を生成し、第2は正方形の近似誤差を最小限にすることを目的としている。
これら2つの手法が,様々な一般的なデータセットの性能向上につながることを実証した。
論文 参考訳(メタデータ) (2024-10-31T16:37:25Z) - CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。
本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文 参考訳(メタデータ) (2023-12-08T23:55:19Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。
提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文 参考訳(メタデータ) (2023-04-10T17:54:38Z) - Separate And Diffuse: Using a Pretrained Diffusion Model for Improving
Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。
複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文 参考訳(メタデータ) (2023-01-25T18:21:51Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。