論文の概要: AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2305.04001v2
- Date: Tue, 23 May 2023 06:59:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 23:34:48.708993
- Title: AADiff: Audio-Aligned Video Synthesis with Text-to-Image Diffusion
- Title(参考訳): AADiff:テキストと画像の拡散によるオーディオ対応ビデオ合成
- Authors: Seungwoo Lee, Chaerin Kong, Donghyeon Jeon, Nojun Kwak
- Abstract要約: 本稿では,時間的ダイナミクスを制御するために音声信号を利用する新しいT2Vフレームワークを提案する。
音声による局所的な編集と信号の平滑化を提案し,ビデオ合成におけるデシラタの相反する2つのデシラタのバランスを良くする。
- 参考スコア(独自算出の注目度): 27.47320496383661
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in diffusion models have showcased promising results in the
text-to-video (T2V) synthesis task. However, as these T2V models solely employ
text as the guidance, they tend to struggle in modeling detailed temporal
dynamics. In this paper, we introduce a novel T2V framework that additionally
employ audio signals to control the temporal dynamics, empowering an
off-the-shelf T2I diffusion to generate audio-aligned videos. We propose
audio-based regional editing and signal smoothing to strike a good balance
between the two contradicting desiderata of video synthesis, i.e., temporal
flexibility and coherence. We empirically demonstrate the effectiveness of our
method through experiments, and further present practical applications for
contents creation.
- Abstract(参考訳): 拡散モデルの最近の進歩は、テキスト・トゥ・ビデオ(T2V)合成タスクにおいて有望な結果を示している。
しかし、これらのt2vモデルはテキストのみを指導として使用するため、詳細な時間ダイナミクスのモデリングに苦労する傾向がある。
本稿では,時間的ダイナミクスを制御するために音声信号を利用する新しいT2Vフレームワークを提案する。
本稿では,映像合成の相反する2つのデシデラタ,すなわち時間的柔軟性とコヒーレンスを良好にバランスさせるために,音声ベースの地域編集と信号平滑化を提案する。
実験により,本手法の有効性を実証的に実証し,さらにコンテンツ作成の実践的応用について述べる。
関連論文リスト
- Text-to-Audio Generation Synchronized with Videos [44.848393652233796]
我々は,T2AV-Benchというビデオと連携したテキスト・ツー・オーディオ生成のための画期的なベンチマークを提案する。
また,ビデオアライメントTTA生成モデル,すなわちT2AVを提案する。
ビデオデータから時間的ニュアンスを抽出し、理解するために、時間的マルチヘッドアテンショントランスフォーマーを使用します。
論文 参考訳(メタデータ) (2024-03-08T22:27:38Z) - Auffusion: Leveraging the Power of Diffusion and Large Language Models
for Text-to-Audio Generation [13.626626326590086]
本稿では,T2Iモデルフレームワークをテキスト・トゥ・オーディオ(TTA)タスクに適用したテキスト・トゥ・イメージ(T2I)システムであるAuffusionを紹介する。
評価の結果,Auffusionは限られたデータと計算資源を用いて,従来のTTAアプローチを超越していることがわかった。
以上の結果から,Auffusionはテキスト記述と正確に一致した音声を生成する能力に優れていたことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-02T05:42:14Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - DiffV2S: Diffusion-based Video-to-Speech Synthesis with Vision-guided
Speaker Embedding [52.84475402151201]
自己教師付き事前学習モデルと即時チューニング技術を用いた視覚誘導型話者埋め込み抽出器を提案する。
さらに,DiffV2Sと呼ばれる拡散型音声合成モデルを開発し,これらの話者埋め込みと入力ビデオから抽出した視覚表現を条件とした。
実験結果から,DiffV2Sは従来の音声合成技術と比較して最先端性能を実現していることがわかった。
論文 参考訳(メタデータ) (2023-08-15T14:07:41Z) - Align, Adapt and Inject: Sound-guided Unified Image Generation [50.34667929051005]
本稿では,音声誘導画像生成,編集,スタイリングのための統合フレームワーク「アライン,アダプティブ,インジェクション(AAI)」を提案する。
本手法は,既存のテキスト・ツー・イメージ(T2I)モデルを用いて,入力音を通常の単語のように音声トークンに適応させる。
提案するAAIは、他のテキストや音声誘導方式よりも優れています。
論文 参考訳(メタデータ) (2023-06-20T12:50:49Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Make-An-Audio 2: Temporal-Enhanced Text-to-Audio Generation [72.7915031238824]
大規模な拡散モデルは、テキスト・トゥ・オーディオ(T2A)合成タスクで成功している。
意味的不一致や時間的一貫性の低下といった共通の問題に悩まされることが多い。
我々は,Make-an-Audioの成功に基づいて,潜伏拡散に基づくT2A法であるMake-an-Audio 2を提案する。
論文 参考訳(メタデータ) (2023-05-29T10:41:28Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。