論文の概要: LaVieID: Local Autoregressive Diffusion Transformers for Identity-Preserving Video Creation
- arxiv url: http://arxiv.org/abs/2508.07603v1
- Date: Mon, 11 Aug 2025 04:13:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.939488
- Title: LaVieID: Local Autoregressive Diffusion Transformers for Identity-Preserving Video Creation
- Title(参考訳): LaVieID:身元保存ビデオ作成のための局所自己回帰拡散変換器
- Authors: Wenhui Song, Hanhui Li, Jiehui Huang, Panwen Hu, Yuhao Cheng, Long Chen, Yiqiang Yan, Xiaodan Liang,
- Abstract要約: LaVieIDは、難易度保存のテキスト・ツー・ビデオタスクに取り組むために設計されたフレームワークである。
既存のDiTにおける顔潜伏状態のグローバルおよび非構造化モデリングとは異なり、LaVieIDは潜伏状態を明確に表現するローカルルータを導入している。
時間的自己回帰モジュールをLaVieIDに統合し、ビデオ復号化前に復号化潜在トークンを精錬する。
- 参考スコア(独自算出の注目度): 43.90153630112123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present LaVieID, a novel \underline{l}ocal \underline{a}utoregressive \underline{vi}d\underline{e}o diffusion framework designed to tackle the challenging \underline{id}entity-preserving text-to-video task. The key idea of LaVieID is to mitigate the loss of identity information inherent in the stochastic global generation process of diffusion transformers (DiTs) from both spatial and temporal perspectives. Specifically, unlike the global and unstructured modeling of facial latent states in existing DiTs, LaVieID introduces a local router to explicitly represent latent states by weighted combinations of fine-grained local facial structures. This alleviates undesirable feature interference and encourages DiTs to capture distinctive facial characteristics. Furthermore, a temporal autoregressive module is integrated into LaVieID to refine denoised latent tokens before video decoding. This module divides latent tokens temporally into chunks, exploiting their long-range temporal dependencies to predict biases for rectifying tokens, thereby significantly enhancing inter-frame identity consistency. Consequently, LaVieID can generate high-fidelity personalized videos and achieve state-of-the-art performance. Our code and models are available at https://github.com/ssugarwh/LaVieID.
- Abstract(参考訳): 本稿では,LaVieID, a novel \underline{l}ocal \underline{a}utoregressive \underline{vi}d\underline{e}o diffusion frameworkについて述べる。
LaVieIDの鍵となる考え方は、空間的および時間的視点から拡散変圧器(DiT)の確率的大域的生成過程に固有のアイデンティティ情報の損失を軽減することである。
具体的には、既存のDiTにおける顔潜在状態のグローバルかつ非構造化のモデリングとは異なり、LaVieIDは局所的なルータを導入し、微細な局所的な顔構造の重み付けによる潜在状態を明示的に表現している。
これにより、望ましくない特徴の干渉が軽減され、DiTが特有の顔の特徴を捉えることが促される。
さらに、ビデオ復号化前の復号化潜在トークンを洗練するために、時間的自己回帰モジュールをLaVieIDに統合する。
このモジュールは、潜在トークンを時間的にチャンクに分割し、長期の時間的依存関係を利用してトークンの修正のためのバイアスを予測することにより、フレーム間のアイデンティティ一貫性を大幅に向上する。
その結果、LaVieIDは高忠実度なパーソナライズされたビデオを生成し、最先端のパフォーマンスを実現することができる。
私たちのコードとモデルはhttps://github.com/ssugarwh/LaVieID.comで公開されています。
関連論文リスト
- MoCA: Identity-Preserving Text-to-Video Generation via Mixture of Cross Attention [20.494388126869424]
MoCA は Diffusion Transformer (DiT) のバックボーン上に構築されたビデオ拡散モデルである。
我々のフレームワークは、各DiTブロックにMoCA層を埋め込むことで、フレーム間のID整合性を改善する。
また、Latent Video Perceptual Lossを組み込んで、ビデオフレーム間のアイデンティティの一貫性と細かな詳細性を高める。
論文 参考訳(メタデータ) (2025-08-05T03:24:08Z) - LoViC: Efficient Long Video Generation with Context Compression [68.22069741704158]
百万単位のオープンドメインビデオに基づいてトレーニングされたDiTベースのフレームワークであるLoViCを紹介する。
当社のアプローチの核心はFlexFormerです。ビデオとテキストを統合された潜在表現に共同で圧縮する表現型オートエンコーダです。
論文 参考訳(メタデータ) (2025-07-17T09:46:43Z) - Removing Averaging: Personalized Lip-Sync Driven Characters Based on Identity Adapter [10.608872317957026]
リップ平均化(lip averaging)現象は、未確認映像を撮影する際に、モデルが微妙な顔の細部を保存できない場合に発生する。
参照ビデオからアイデンティティ埋め込みを抽出し,忠実な顔列を生成するUnAvgLipを提案する。
論文 参考訳(メタデータ) (2025-03-09T02:36:31Z) - Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - Upscale-A-Video: Temporal-Consistent Diffusion Model for Real-World
Video Super-Resolution [65.91317390645163]
Upscale-A-Videoは、ビデオアップスケーリングのためのテキストガイド付き遅延拡散フレームワークである。
ローカルでは、一時的なレイヤをU-NetとVAE-Decoderに統合し、短いシーケンス内で一貫性を維持する。
また、テキストプロンプトによってテクスチャ生成と調整可能なノイズレベルをガイドし、復元と生成のバランスを取ることで、柔軟性も向上する。
論文 参考訳(メタデータ) (2023-12-11T18:54:52Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。