Fugu-MT 論文翻訳(概要): A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation

論文の概要: A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation

arxiv url: http://arxiv.org/abs/2409.17550v2
Date: Fri, 15 Nov 2024 07:48:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.095963
Title: A Simple but Strong Baseline for Sounding Video Generation: Effective Adaptation of Audio and Video Diffusion Models for Joint Generation
Title（参考訳）: 音声生成のためのシンプルだが強いベースライン:共同生成のための音声と映像の拡散モデルの効果的適応
Authors: Masato Ishii, Akio Hayakawa, Takashi Shibuya, Yuki Mitsufuji,
Abstract要約: オーディオとビデオのベース拡散モデルを考えると,これらを1つのモデルに追加モジュールに統合し,モデルが共同でオーディオとビデオを生成するように訓練する。音声とビデオのペア間のアライメントを高めるために,本モデルでは2つの新しいメカニズムを導入する。
参考スコア（独自算出の注目度）: 15.29891397291197
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we build a simple but strong baseline for sounding video generation. Given base diffusion models for audio and video, we integrate them with additional modules into a single model and train it to make the model jointly generate audio and video. To enhance alignment between audio-video pairs, we introduce two novel mechanisms in our model. The first one is timestep adjustment, which provides different timestep information to each base model. It is designed to align how samples are generated along with timesteps across modalities. The second one is a new design of the additional modules, termed Cross-Modal Conditioning as Positional Encoding (CMC-PE). In CMC-PE, cross-modal information is embedded as if it represents temporal position information, and the embeddings are fed into the model like positional encoding. Compared with the popular cross-attention mechanism, CMC-PE provides a better inductive bias for temporal alignment in the generated data. Experimental results validate the effectiveness of the two newly introduced mechanisms and also demonstrate that our method outperforms existing methods.
Abstract（参考訳）: 本研究では,映像生成のためのシンプルだが強力なベースラインを構築する。オーディオとビデオのベース拡散モデルを考えると,これらを1つのモデルに追加モジュールに統合し,モデルが共同でオーディオとビデオを生成するように訓練する。音声とビデオのペア間のアライメントを高めるために,本モデルでは2つの新しいメカニズムを導入する。 1つ目は、各ベースモデルに異なるタイムステップ情報を提供するタイムステップ調整である。サンプルの生成方法と、モジュール間のタイムステップを整合させるように設計されている。 2つ目は追加モジュールの新しい設計で、Cross-Modal Conditioningを位置符号化(CMC-PE)と呼ぶ。 CMC-PEでは、時間的位置情報を表すようなクロスモーダル情報を埋め込み、その埋め込みを位置符号化のようなモデルに入力する。一般的なクロスアテンション機構と比較して、CMC-PEは、生成されたデータの時間的アライメントに対してより優れた誘導バイアスを提供する。実験により,新たに導入された2つのメカニズムの有効性を検証し,提案手法が既存手法より優れていることを示す。

関連論文リスト

READ: Real-time and Efficient Asynchronous Diffusion for Audio-driven Talking Head Generation [55.58089937219475]
本稿では,最初のリアルタイム拡散変換器を用いた音声ヘッド生成フレームワークREADを提案する。提案手法はまず,VAEを用いて高度に圧縮されたビデオ潜時空間を学習し,音声生成におけるトークン数を大幅に削減する。また,READは,実行時間を大幅に短縮した競合する音声ヘッドビデオを生成することにより,最先端の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2025-08-05T13:57:03Z)
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [55.14432034345353]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文参考訳（メタデータ） (2025-06-24T17:57:26Z)
AV-Link: Temporally-Aligned Diffusion Features for Cross-Modal Audio-Video Generation [49.6922496382879]
本稿では,A2V(Video-to-Audio)生成とA2V(Audio-to-Video)生成のための統合フレームワークを提案する。我々のフレームワークの鍵は、ビデオとオーディオの拡散モデル間の双方向情報交換を容易にするFusion Blockである。
論文参考訳（メタデータ） (2024-12-19T18:57:21Z)
Frieren: Efficient Video-to-Audio Generation Network with Rectified Flow Matching [51.70360630470263]
Video-to-audio (V2A) は、サイレントビデオからコンテンツマッチング音声を合成することを目的としている。本稿では,修正フローマッチングに基づくV2AモデルであるFrierenを提案する。実験により、フリーレンは世代品質と時間的アライメントの両方で最先端のパフォーマンスを達成することが示された。
論文参考訳（メタデータ） (2024-06-01T06:40:22Z)
MMDisCo: Multi-Modal Discriminator-Guided Cooperative Diffusion for Joint Audio and Video Generation [15.29891397291197]
本研究は,最小計算コストで音声映像生成モデルを構築することを目的とする。そこで本研究では,単一モーダルモデルを用いて,モダリティ間の整合性のあるサンプルを協調的に生成する手法を提案する。いくつかのベンチマークデータセットに対する実証的な評価により,本手法は比較的少ないパラメータで単一モードの忠実度と多モードアライメントの両方を改善することが示された。
論文参考訳（メタデータ） (2024-05-28T05:43:03Z)
Seeing and Hearing: Open-domain Visual-Audio Generation with Diffusion Latent Aligners [69.70590867769408]
ビデオとオーディオのコンテンツ制作は、映画産業とプロのユーザーにとって重要な技術である。既存の拡散に基づく手法は、ビデオと音声を別々に生成する。本研究では,このギャップを埋めることを目的として,クロス・ビジュアル・オーディオとジョイント・ヴィジュアル・オーディオ生成のためのフレームワークを慎重に設計した。
論文参考訳（メタデータ） (2024-02-27T17:57:04Z)
CMMD: Contrastive Multi-Modal Diffusion for Video-Audio Conditional Modeling [21.380988939240844]
ビデオとオーディオの双方向条件生成に適したマルチモーダル拡散モデルを提案する。本稿では,視覚と聴覚の同期を改善するために,協調学習損失を提案する。
論文参考訳（メタデータ） (2023-12-08T23:55:19Z)
Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文参考訳（メタデータ） (2023-11-09T05:24:20Z)
An Efficient Membership Inference Attack for the Diffusion Model by Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文参考訳（メタデータ） (2023-05-26T16:38:48Z)
MM-Diffusion: Learning Multi-Modal Diffusion Models for Joint Audio and Video Generation [70.74377373885645]
本稿では,視聴体験と視聴体験を同時に実現する,初の共同音声ビデオ生成フレームワークを提案する。 MM拡散(MM-Diffusion)は、設計による共同記述プロセスのための連続的なマルチモーダルなU-Netで構成されている。実験は、無条件のオーディオビデオ生成とゼロショット条件付タスクにおいて優れた結果を示す。
論文参考訳（メタデータ） (2022-12-19T14:11:52Z)
RAVE: A variational autoencoder for fast and high-quality neural audio synthesis [2.28438857884398]
本稿では,高速かつ高品質な音声波形合成が可能なリアルタイムオーディオ変分自動エンコーダ(RAVE)を提案する。我々のモデルは48kHzのオーディオ信号を生成できる最初のモデルであり、同時に標準のラップトップCPU上で20倍高速に動作可能であることを示す。
論文参考訳（メタデータ） (2021-11-09T09:07:30Z)
Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文参考訳（メタデータ） (2020-11-14T17:09:03Z)
TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。 Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文参考訳（メタデータ） (2020-05-14T08:22:45Z)
Audio-Visual Decision Fusion for WFST-based and seq2seq Models [3.2771898634434997]
雑音下では、音声認識システムは高い単語誤り率(WER)に悩まされる提案手法は,推測時における音声と視覚のモダリティから情報を融合する新しい手法である。提案手法は音響のみのWERよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-01-29T13:45:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。