Fugu-MT 論文翻訳(概要): Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation

論文の概要: Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation

arxiv url: http://arxiv.org/abs/2405.17842v1
Date: Tue, 28 May 2024 05:43:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 20:16:52.321070
Title: Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation
Title（参考訳）: ディスクリミネータによる共同音声・ビデオ生成のための協調拡散
Authors: Akio Hayakawa, Masato Ishii, Takashi Shibuya, Yuki Mitsufuji,
Abstract要約: そこで本研究では,各単一モーダルモデルを用いて,各モーダルモデルに対して協調的に適切なサンプルを生成する手法を提案する。理論的には、このガイダンスは最適判別器の勾配によって計算可能であることを示す。いくつかのベンチマークデータセットに対する実験的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。
参考スコア（独自算出の注目度）: 15.29891397291197
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this study, we aim to construct an audio-video generative model with minimal computational cost by leveraging pre-trained single-modal generative models for audio and video. To achieve this, we propose a novel method that guides each single-modal model to cooperatively generate well-aligned samples across modalities. Specifically, given two pre-trained base diffusion models, we train a lightweight joint guidance module to adjust scores separately estimated by the base models to match the score of joint distribution over audio and video. We theoretically show that this guidance can be computed through the gradient of the optimal discriminator distinguishing real audio-video pairs from fake ones independently generated by the base models. On the basis of this analysis, we construct the joint guidance module by training this discriminator. Additionally, we adopt a loss function to make the gradient of the discriminator work as a noise estimator, as in standard diffusion models, stabilizing the gradient of the discriminator. Empirical evaluations on several benchmark datasets demonstrate that our method improves both single-modal fidelity and multi-modal alignment with a relatively small number of parameters.
Abstract（参考訳）: 本研究では,事前学習した単一モード生成モデルを利用して,最小計算コストのオーディオ映像生成モデルを構築することを目的とする。そこで本研究では,各単一モーダルモデルをガイドして,各モーダルモデルに対して協調的に整合性のあるサンプルを生成する手法を提案する。具体的には,2つの事前学習ベース拡散モデルが与えられた場合,ベースモデルによって別々に推定されるスコアをオーディオおよびビデオ上での関節分布のスコアに合わせるために,軽量な関節誘導モジュールを訓練する。理論的には、このガイダンスは、ベースモデルによって独立に生成された偽の音声-ビデオ対を識別する最適な判別器の勾配によって計算可能であることを示す。この分析に基づいて,この判別器を訓練して共同指導モジュールを構築する。さらに,判別器の勾配を標準拡散モデルのようにノイズ推定器として機能させ,判別器の勾配を安定化させる損失関数を採用した。いくつかのベンチマークデータセットに対する実証的な評価により,本手法は比較的少数のパラメータで単一モードの忠実度と複数モードのアライメントを改善していることが示された。

関連論文リスト

Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:57Z)
Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文参考訳（メタデータ） (2025-10-16T03:37:16Z)
Training-Free Multi-Step Audio Source Separation [16.187944473839632]
本研究では,事前学習したワンステップ音源分離モデルを,追加訓練を伴わずに多段階分離に利用できることを示す。本稿では,入力混合物を前ステップの分離結果と最適に混合することにより,分離を反復的に適用する簡易かつ効果的な推論手法を提案する。実験結果から,多段階分離手法は音声強調処理と音源分離処理の双方で一段階推論を一貫して上回っていることが明らかとなった。
論文参考訳（メタデータ） (2025-05-26T05:40:12Z)
Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-03-04T17:46:51Z)
Generative Lines Matching Models [2.6089354079273512]
本研究では,2つの分布を補間する全直線に一致した新しい確率フローモデルを提案する。その結果,LMMが生成する流れ場は時間的整合性に優れ,直線性スコアの優れた軌道が得られた。全体として、LMMは確立されたベンチマークデータセット上で、最小限のNFEで最先端のFIDスコアを達成する。
論文参考訳（メタデータ） (2024-12-09T11:33:38Z)
On Sampling Strategies for Spectral Model Sharding [7.185534285278903]
本研究では,そのようなシャーディングのための2つのサンプリング戦略を提案する。第1は元の重みの偏りのない推定器を生成し、第2は正方形の近似誤差を最小限にすることを目的としている。これら2つの手法が,様々な一般的なデータセットの性能向上につながることを実証した。
論文参考訳（メタデータ） (2024-10-31T16:37:25Z)
A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation [15.29891397291197]
オーディオとビデオのベース拡散モデルを考えると,これらを1つのモデルに追加モジュールに統合し,モデルが共同でオーディオとビデオを生成するように訓練する。音声とビデオのペア間のアライメントを高めるために,本モデルでは2つの新しいメカニズムを導入する。
論文参考訳（メタデータ） (2024-09-26T05:39:52Z)
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文参考訳（メタデータ） (2023-12-08T23:55:19Z)
Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文参考訳（メタデータ） (2023-08-10T08:43:20Z)
Reflected Diffusion Models [93.26107023470979]
本稿では,データのサポートに基づいて進化する反射微分方程式を逆転する反射拡散モデルを提案する。提案手法は,一般化されたスコアマッチング損失を用いてスコア関数を学習し,標準拡散モデルの主要成分を拡張する。
論文参考訳（メタデータ） (2023-04-10T17:54:38Z)
Separate And Diffuse: Using a Pretrained Diffusion Model for Improving Source Separation [99.19786288094596]
上界をランダムな生成モデルに一般化する方法を示す。複数のベンチマークで2, 3, 5, 10, 20人の話者に最先端の結果を示す。
論文参考訳（メタデータ） (2023-01-25T18:21:51Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。 SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文参考訳（メタデータ） (2022-10-23T01:33:16Z)
Unsupervised Audio Source Separation Using Differentiable Parametric Source Models [8.80867379881193]
本研究では,教師なしモデルに基づく深層学習手法を提案する。ニューラルネットワークは、観測された混合物をソースの和として再構成するように訓練される。音声アンサンブル分離タスクの実験評価により,提案手法が学習自由法より優れていることが示された。
論文参考訳（メタデータ） (2022-01-24T11:05:30Z)
Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2021-06-30T22:44:12Z)
How Faithful is your Synthetic Data? Sample-level Metrics for Evaluating and Auditing Generative Models [95.8037674226622]
ドメインに依存しない方法で生成モデルの忠実度,多様性,一般化性能を特徴付ける3次元評価指標を提案する。当社のメトリクスは、精度リコール分析により統計的発散測定を統合し、モデル忠実度と多様性のサンプルおよび分布レベルの診断を可能にします。
論文参考訳（メタデータ） (2021-02-17T18:25:30Z)
Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文参考訳（メタデータ） (2020-11-14T17:09:03Z)
Unified Gradient Reweighting for Model Biasing with Applications to Source Separation [27.215800308343322]
本稿では,モデルの学習過程を偏り,一定の結果の分布に向かわせるための,単純で統一的な勾配再重み付け手法を提案する。本手法を様々な音源分離タスクに適用し,モデルの動作点を異なる目的にシフトさせる。我々のフレームワークは、ユーザーが最悪のパフォーマンスと平均パフォーマンスの間の堅牢性トレードオフを制御できるようにします。
論文参考訳（メタデータ） (2020-10-25T21:41:45Z)
Learning Diverse Representations for Fast Adaptation to Distribution Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文参考訳（メタデータ） (2020-06-12T12:23:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。