論文の概要: KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation
- arxiv url: http://arxiv.org/abs/2504.09656v1
- Date: Sun, 13 Apr 2025 17:06:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 03:27:15.998465
- Title: KeyVID: Keyframe-Aware Video Diffusion for Audio-Synchronized Visual Animation
- Title(参考訳): KeyVID: オーディオ同期ビジュアルアニメーションのためのキーフレーム対応ビデオ拡散
- Authors: Xingrui Wang, Jiang Liu, Ze Wang, Xiaodong Yu, Jialian Wu, Ximeng Sun, Yusheng Su, Alan Yuille, Zicheng Liu, Emad Barsoum,
- Abstract要約: KeyVIDは、オーディオ信号のキーモーメントの生成品質を大幅に改善する、音声認識と視覚のアニメーションフレームワークである。
我々は、KeyVIDが複数のデータセット間でオーディオ-ビデオ同期とビデオ品質を大幅に改善することを実証した。
- 参考スコア(独自算出の注目度): 28.859027881497376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating video from various conditions, such as text, image, and audio, enables both spatial and temporal control, leading to high-quality generation results. Videos with dramatic motions often require a higher frame rate to ensure smooth motion. Currently, most audio-to-visual animation models use uniformly sampled frames from video clips. However, these uniformly sampled frames fail to capture significant key moments in dramatic motions at low frame rates and require significantly more memory when increasing the number of frames directly. In this paper, we propose KeyVID, a keyframe-aware audio-to-visual animation framework that significantly improves the generation quality for key moments in audio signals while maintaining computation efficiency. Given an image and an audio input, we first localize keyframe time steps from the audio. Then, we use a keyframe generator to generate the corresponding visual keyframes. Finally, we generate all intermediate frames using the motion interpolator. Through extensive experiments, we demonstrate that KeyVID significantly improves audio-video synchronization and video quality across multiple datasets, particularly for highly dynamic motions. The code is released in https://github.com/XingruiWang/KeyVID.
- Abstract(参考訳): テキスト、画像、音声などの様々な条件から映像を生成することにより、空間的および時間的制御が可能となり、高品質な生成結果が得られる。
劇的な動きを持つビデオは、スムーズな動きを保証するために高いフレームレートを必要とすることが多い。
現在、ほとんどのオーディオ対視覚アニメーションモデルは、ビデオクリップから一様にサンプリングされたフレームを使用している。
しかし、これらの一様にサンプリングされたフレームは、低いフレームレートで劇的な動きにおいて重要なキーモーメントを捉えることができず、直接フレーム数を増やす際には、はるかに多くのメモリを必要とする。
本稿では,キーフレームを意識した音声-視覚アニメーションフレームワークであるKeyVIDを提案する。
画像と音声入力が与えられた場合、まずキーフレームの時間ステップをオーディオからローカライズする。
次に、キーフレームジェネレータを使用して対応するビジュアルキーフレームを生成します。
最後に、動作補間器を用いて、すべての中間フレームを生成する。
広範にわたる実験により、KeyVIDは複数のデータセット、特に高ダイナミックな動きに対して、オーディオ-ビデオ同期とビデオ品質を大幅に改善することを示した。
コードはhttps://github.com/XingruiWang/KeyVIDで公開されている。
関連論文リスト
- Exploiting Temporal Audio-Visual Correlation Embedding for Audio-Driven One-Shot Talking Head Animation [62.218932509432314]
従来,隣接する音声クリップの時間的関係は,対応する映像フレームの時間的関係と強く相関している。
音声と視覚の相関関係を学習し,その相関関係を統合し,特徴表現の強化と最終生成の正規化を支援する。
論文 参考訳(メタデータ) (2025-04-08T07:23:28Z) - Bidirectional Learned Facial Animation Codec for Low Bitrate Talking Head Videos [6.062921267681344]
ディープ・フェース・アニメーション技術は、ディープ・ジェネレーティブ・モデルを適用して音声ヘッドビデオを効率よく圧縮する。
本稿では,過去と未来のフレームを用いた自然な顔画像を生成する,新しい学習アニメーションを提案する。
論文 参考訳(メタデータ) (2025-03-12T19:39:09Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - Generative Inbetweening through Frame-wise Conditions-Driven Video Generation [63.43583844248389]
生成的inbetweeningは、2つのキーフレームを入力として利用することで中間フレームシーケンスを生成することを目的としている。
補間ビデオフレームの時間的安定性を著しく向上するフレームワイド・コンディション駆動ビデオ生成法(FCVG)を提案する。
FCVGは線形曲線と非線形曲線の両方を用いて時間的に安定なビデオを生成する能力を示した。
論文 参考訳(メタデータ) (2024-12-16T13:19:41Z) - Ada-VE: Training-Free Consistent Video Editing Using Adaptive Motion Prior [13.595032265551184]
ビデオ間合成は、キャラクタ一貫性の維持、スムーズな時間遷移、高速動作時の視覚的品質の維持において大きな課題となる。
本稿では,冗長計算を選択的に削減する適応型動き誘導型クロスフレームアテンション機構を提案する。
これにより、同じ計算予算内でより多くのフレームにクロスフレームの注意を向けることができる。
論文 参考訳(メタデータ) (2024-06-07T12:12:25Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z) - E-VFIA : Event-Based Video Frame Interpolation with Attention [8.93294761619288]
軽量カーネルベース手法として,注目度の高いイベントベースビデオフレーム(E-VFIA)を提案する。
E-VFIAは、イベント情報を変形可能な畳み込みによって標準的なビデオフレームと融合し、高品質な補間フレームを生成する。
提案手法は、時間分解能の高いイベントを表現し、イベントベース情報をよりよくエンコードするためにマルチヘッド自己保持機構を使用する。
論文 参考訳(メタデータ) (2022-09-19T21:40:32Z) - Video Frame Interpolation without Temporal Priors [91.04877640089053]
ビデオフレームは、既存の中間フレームをビデオシーケンスで合成することを目的としている。
フレーム/秒(FPS)やフレーム露光時間といったビデオの時間的先行は、異なるカメラセンサーによって異なる場合がある。
我々は、より良い合成結果を得るために、新しい光フロー改善戦略を考案する。
論文 参考訳(メタデータ) (2021-12-02T12:13:56Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。