論文の概要: Slot-ID: Identity-Preserving Video Generation from Reference Videos via Slot-Based Temporal Identity Encoding
- arxiv url: http://arxiv.org/abs/2601.01352v1
- Date: Sun, 04 Jan 2026 03:41:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.243091
- Title: Slot-ID: Identity-Preserving Video Generation from Reference Videos via Slot-Based Temporal Identity Encoding
- Title(参考訳): Slot-ID:Slot-based Temporal Identity Encodingによる参照ビデオからのID保存ビデオ生成
- Authors: Yixuan Lai, He Wang, Kun Zhou, Tianjia Shao,
- Abstract要約: 拡散変圧器ビデオジェネレータの同一条件の変種について述べる。
短いクリップでは、ポーズや照明を横切る笑顔の作り方など、主題固有のパターンが明らかになっている。
このアプローチは、大きなポーズの変化と表現力のある顔行動の下で、恒常的にアイデンティティの保持を改善する。
- 参考スコア(独自算出の注目度): 30.62635724018122
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Producing prompt-faithful videos that preserve a user-specified identity remains challenging: models need to extrapolate facial dynamics from sparse reference while balancing the tension between identity preservation and motion naturalness. Conditioning on a single image completely ignores the temporal signature, which leads to pose-locked motions, unnatural warping, and "average" faces when viewpoints and expressions change. To this end, we introduce an identity-conditioned variant of a diffusion-transformer video generator which uses a short reference video rather than a single portrait. Our key idea is to incorporate the dynamics in the reference. A short clip reveals subject-specific patterns, e.g., how smiles form, across poses and lighting. From this clip, a Sinkhorn-routed encoder learns compact identity tokens that capture characteristic dynamics while remaining pretrained backbone-compatible. Despite adding only lightweight conditioning, the approach consistently improves identity retention under large pose changes and expressive facial behavior, while maintaining prompt faithfulness and visual realism across diverse subjects and prompts.
- Abstract(参考訳): モデルは、アイデンティティの保存と動きの自然性の間の緊張のバランスを保ちながら、スパースリファレンスから顔のダイナミクスを外挿する必要がある。
単一の画像の条件付けは、時間的シグネチャを完全に無視するので、視点や表現が変化すると、ポーズロックされた動き、不自然なゆらぎ、そして「平均的な」顔に繋がる。
この目的のために,単一のポートレートではなく,短い参照ビデオを用いた拡散変圧器ビデオジェネレータのアイデンティティ条件付き変種を導入する。
私たちのキーとなる考え方は、ダイナミックスをリファレンスに組み込むことです。
ショートクリップでは、ポーズや照明にまたがる笑顔の作り方など、被写体特有のパターンが明らかになっている。
このクリップから、シンクホーンでローウトされたエンコーダは、トレーニング済みのバックボーン互換を維持しながら特性ダイナミクスをキャプチャするコンパクトなアイデンティティトークンを学習する。
ライトウェイトコンディショニングのみを追加しても、アプローチは大きなポーズ変化と表現力のある顔行動の下でのアイデンティティ保持を継続的に改善し、同時に、様々な主題やプロンプトに対する迅速な忠実さと視覚的リアリズムを維持している。
関連論文リスト
- AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - DirectSwap: Mask-Free Cross-Identity Training and Benchmarking for Expression-Consistent Video Head Swapping [58.2549561389375]
ビデオヘッドスワップは、顔のアイデンティティ、頭の形、ヘアスタイルなど、ビデオ対象の頭部全体を参照画像に置き換えることを目的としている。
地対交換データがないため、従来の手法はビデオ内の同一人物のクロスフレームペアをトレーニングする。
我々は、画像U-Netをビデオ拡散モデルに拡張する、マスクのない直接ビデオヘッドスワッピングフレームワークであるDirectSwapを提案する。
論文 参考訳(メタデータ) (2025-12-10T08:31:28Z) - Mask-Free Audio-driven Talking Face Generation for Enhanced Visual Quality and Identity Preservation [54.52905471078152]
本研究では,2Dベースの顔編集作業を維持しつつ,マスクレス音声生成手法を提案する。
入力画像を2段階のランドマークベースアプローチを用いて,口を閉じた状態に変換する。
論文 参考訳(メタデータ) (2025-07-28T16:03:36Z) - CanonSwap: High-Fidelity and Consistent Video Face Swapping via Canonical Space Modulation [39.665632874158426]
CanonSwapは、外見情報からモーション情報を分離するビデオフェイススワッピングフレームワークである。
本手法は, 視覚的品質, 時間的整合性, アイデンティティ保存の点で, 既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-07-03T15:03:39Z) - Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [76.3175166538482]
VideoGen-of-Thought(VGoT)は、単一の文から複数ショットのビデオ合成を自動化するステップバイステップのフレームワークである。
VGoTは、ナラティブな断片化、視覚的不整合、トランジションアーティファクトの3つの課題に対処する。
トレーニング不要のパイプラインで組み合わせられたVGoTは、ショット内面の一貫性が20.4%、スタイルの一貫性が17.4%向上した。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - When StyleGAN Meets Stable Diffusion: a $\mathscr{W}_+$ Adapter for
Personalized Image Generation [60.305112612629465]
テキストと画像の拡散モデルは、多種多様で高品質でフォトリアリスティックな画像を生成するのに優れている。
本稿では,拡散モデルのための拡張されたアイデンティティ保存とアンタングル化を実現するために,StyleGAN 埋め込み空間 $mathcalW_+$ の新たな利用法を提案する。
提案手法は,即時記述に適合するだけでなく,一般的なスタイルGAN編集方向に対応可能なパーソナライズされたテキスト・ツー・イメージ出力を生成する。
論文 参考訳(メタデータ) (2023-11-29T09:05:14Z) - Realistic Face Reenactment via Self-Supervised Disentangling of Identity
and Pose [23.211318473026243]
本研究では,大量の未収録映像を自然に再現する自己教師型ハイブリッドモデル(DAE-GAN)を提案する。
提案手法は,2つのデフォーミングオートエンコーダと条件生成の最新の進歩を組み合わせたものである。
実験の結果,再現された画像の良好な品質と,同一性間での顔の動きの伝達の柔軟性が示された。
論文 参考訳(メタデータ) (2020-03-29T06:45:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。