Fugu-MT 論文翻訳(概要): Anchored Diffusion for Video Face Reenactment

論文の概要: Anchored Diffusion for Video Face Reenactment

arxiv url: http://arxiv.org/abs/2407.15153v1
Date: Sun, 21 Jul 2024 13:14:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-23 19:08:59.395849
Title: Anchored Diffusion for Video Face Reenactment
Title（参考訳）: ビデオ顔再生のためのアンコールド拡散法
Authors: Idan Kligvasser, Regev Cohen, George Leifman, Ehud Rivlin, Michael Elad,
Abstract要約: 比較的長くシームレスなビデオを合成するための新しい手法であるAnchored Diffusionを紹介する。我々は、ランダムな非一様時間間隔でビデオシーケンスでモデルを訓練し、外部ガイダンスを介して時間情報を組み込む。推論の際には、トランスフォーマーアーキテクチャを利用して拡散プロセスを修正し、共通のフレームに固定された一様でないシーケンスのバッチを生成する。
参考スコア（独自算出の注目度）: 17.343307538702238
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video generation has drawn significant interest recently, pushing the development of large-scale models capable of producing realistic videos with coherent motion. Due to memory constraints, these models typically generate short video segments that are then combined into long videos. The merging process poses a significant challenge, as it requires ensuring smooth transitions and overall consistency. In this paper, we introduce Anchored Diffusion, a novel method for synthesizing relatively long and seamless videos. We extend Diffusion Transformers (DiTs) to incorporate temporal information, creating our sequence-DiT (sDiT) model for generating short video segments. Unlike previous works, we train our model on video sequences with random non-uniform temporal spacing and incorporate temporal information via external guidance, increasing flexibility and allowing it to capture both short and long-term relationships. Furthermore, during inference, we leverage the transformer architecture to modify the diffusion process, generating a batch of non-uniform sequences anchored to a common frame, ensuring consistency regardless of temporal distance. To demonstrate our method, we focus on face reenactment, the task of creating a video from a source image that replicates the facial expressions and movements from a driving video. Through comprehensive experiments, we show our approach outperforms current techniques in producing longer consistent high-quality videos while offering editing capabilities.
Abstract（参考訳）: 近年、映像生成が注目され、コヒーレントな動きでリアルな映像を制作できる大規模モデルの開発が進められている。メモリの制約のため、これらのモデルは通常、短いビデオセグメントを生成し、それを長いビデオに結合する。マージプロセスは、スムーズなトランジションと全体的な一貫性を保証する必要があるため、大きな課題となる。本稿では,比較的長くシームレスな映像を合成する新しい手法であるAnchored Diffusionを紹介する。本研究では、Diffusion Transformer(DiT)を拡張して、時間的情報を統合することにより、短いビデオセグメントを生成するシーケンスDiT(sDiT)モデルを作成する。従来とは違って、ランダムな非一様時間間隔の動画シーケンスでモデルをトレーニングし、外部ガイダンスによる時間情報の取り込み、柔軟性の向上、短期的・長期的関係の獲得を可能にする。さらに,提案手法では,共用フレームに固定された一様でない配列のバッチを生成し,時間的距離によらず整合性を確保する。本手法を実証するために,運転映像の表情や動きを再現する映像から映像を作成する作業である顔再現に焦点を当てた。総合的な実験を通じて、我々は、編集機能を提供しながら、より一貫した高品質な動画を制作する上で、現在の技術よりも優れていることを示す。

関連論文リスト

Inference-based GAN Video Generation [47.53991869205973]
可変エンコーダを用いた対向型非条件ビデオジェネレータの実現により,新しいタイプのビデオジェネレータを提案する。既存のモデルは、生成されたビデオの時間的スケーリングに苦労する。私たちは、数百から数千のフレームからなる長いビデオを生成するために、新しい、メモリ効率のアプローチを採用しています。
論文参考訳（メタデータ） (2025-12-25T20:14:38Z)
VideoMerge: Towards Training-free Long Video Generation [46.108622251662176]
長いビデオ生成は、コンピュータビジョンにおける挑戦的で魅力的なトピックであり続けている。本稿では,短時間のビデオのマージにシームレスに適応できるトレーニングフリーのVideoMergeを提案する。
論文参考訳（メタデータ） (2025-03-13T00:47:59Z)
HumanDiT: Pose-Guided Diffusion Transformer for Long-form Human Motion Video Generation [39.69554411714128]
提案するHumanDiTは,14,000時間の高品質ビデオを含むデータセットに基づいてトレーニングされたポーズ誘導拡散変換器(DiT)ベースのフレームワークである。 HumanDiTは多数のビデオ解像度と可変シーケンス長をサポートし、長いシーケンスのビデオ生成の学習を容易にする。実験では、様々なシナリオにまたがる長めの、ポーズの正確なビデオを生成する上で、優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-02-07T11:36:36Z)
FreeLong: Training-Free Long Video Generation with SpectralBlend Temporal Attention [57.651429116402554]
本稿では、一貫した長ビデオ生成のための既存の短ビデオ拡散モデルを拡張するための、単純で訓練のないアプローチについて検討する。短いビデオ拡散モデルを直接適用することで、ビデオの品質が著しく低下することを発見した。そこで本研究では,長い映像の特徴の周波数分布のバランスをとるために,FreeLongという新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-29T11:52:07Z)
MovieDreamer: Hierarchical Generation for Coherent Long Visual Sequence [62.72540590546812]
MovieDreamerは、自己回帰モデルの強みと拡散ベースのレンダリングを統合する、新しい階層的なフレームワークである。様々な映画ジャンルにまたがって実験を行い、そのアプローチが優れた視覚的・物語的品質を実現することを示す。
論文参考訳（メタデータ） (2024-07-23T17:17:05Z)
MAVIN: Multi-Action Video Generation with Diffusion Models via Transition Video Infilling [19.004339956475498]
MAVINは、2つの動画をシームレスに接続し、結合的な統合シーケンスを形成するトランジションビデオを生成するように設計されている。従来の品質基準を補完し,時間的コヒーレンスと滑らかさを評価するための新しい指標CLIP-RS(CLIP Relative Smoothness)を導入する。馬とトラのシナリオに関する実験結果は、滑らかでコヒーレントなビデオ遷移を生成するMAVINの優れた性能を示す。
論文参考訳（メタデータ） (2024-05-28T09:46:09Z)
Lumiere: A Space-Time Diffusion Model for Video Generation [75.54967294846686]
本研究では,一度にビデオ全体の時間的持続時間を生成する空間時間U-Netアーキテクチャを提案する。これは、遠方から後続の時間超解像を合成する既存のビデオモデルとは対照的である。空間的および(重要な)時間的ダウンサンプリングとアップサンプリングの両方をデプロイすることで、我々のモデルは、フルフレームレートで低解像度のビデオを直接生成することを学ぶ。
論文参考訳（メタデータ） (2024-01-23T18:05:25Z)
VidToMe: Video Token Merging for Zero-Shot Video Editing [100.79999871424931]
本稿では,フレーム間で自己注意トークンをマージすることで,生成ビデオの時間的一貫性を高める新しい手法を提案する。本手法は時間的コヒーレンスを改善し,自己アテンション計算におけるメモリ消費を削減する。
論文参考訳（メタデータ） (2023-12-17T09:05:56Z)
SEINE: Short-to-Long Video Diffusion Model for Generative Transition and Prediction [93.26613503521664]
本稿では、生成遷移と予測に焦点をあてた、短時間から長期のビデオ拡散モデルSEINEを提案する。テキスト記述に基づく遷移を自動的に生成するランダムマスクビデオ拡散モデルを提案する。我々のモデルは、コヒーレンスと視覚的品質を保証するトランジションビデオを生成する。
論文参考訳（メタデータ） (2023-10-31T17:58:17Z)
Video Generation Beyond a Single Clip [76.5306434379088]
ビデオ生成モデルは、実際のビデオの長さと比較して比較的短いビデオクリップしか生成できない。多様なコンテンツや複数のイベントをカバーした長いビデオを生成するために,ビデオ生成プロセスを制御するための追加のガイダンスを提案する。提案手法は、固定時間ウィンドウ内でリアルな映像を生成することに焦点を当てた、既存の映像生成の取り組みを補完するものである。
論文参考訳（メタデータ） (2023-04-15T06:17:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。