論文の概要: Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
- arxiv url: http://arxiv.org/abs/2508.07901v2
- Date: Tue, 12 Aug 2025 02:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.423961
- Title: Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
- Title(参考訳): スタンドイン:映像生成のための軽量・プラグアンドプレイID制御
- Authors: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li,
- Abstract要約: ビデオ生成におけるアイデンティティ保護のための軽量かつプラグアンドプレイのフレームワークであるStand-Inを提案する。
我々のフレームワークは、ビデオの品質とアイデンティティの保存において優れた結果をもたらし、他のフルパラメータトレーニング方法よりも優れています。
我々のフレームワークは、主題駆動のビデオ生成、ポーズ参照ビデオ生成、スタイル化、顔交換など、他のタスクにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 12.243958169714166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-fidelity human videos that match user-specified identities is important yet challenging in the field of generative AI. Existing methods often rely on an excessive number of training parameters and lack compatibility with other AIGC tools. In this paper, we propose Stand-In, a lightweight and plug-and-play framework for identity preservation in video generation. Specifically, we introduce a conditional image branch into the pre-trained video generation model. Identity control is achieved through restricted self-attentions with conditional position mapping, and can be learned quickly with only 2000 pairs. Despite incorporating and training just $\sim$1% additional parameters, our framework achieves excellent results in video quality and identity preservation, outperforming other full-parameter training methods. Moreover, our framework can be seamlessly integrated for other tasks, such as subject-driven video generation, pose-referenced video generation, stylization, and face swapping.
- Abstract(参考訳): 生成AIの分野では、ユーザが特定したアイデンティティにマッチする高忠実度な人間のビデオを生成することが重要であるが、難しい。
既存のメソッドは、しばしば過剰な数のトレーニングパラメータに依存し、他のAIGCツールとの互換性を欠いている。
本稿では,ビデオ生成におけるアイデンティティ保護のための軽量かつプラグアンドプレイフレームワークであるStand-Inを提案する。
具体的には、事前訓練された映像生成モデルに条件付き画像分岐を導入する。
アイデンティティ制御は、条件付き位置マッピングによる制限された自己アテンションによって達成され、2000ペアで素早く学習することができる。
追加パラメータを$\sim$1%追加しても、ビデオ品質とアイデンティティ保存の優れた結果が得られ、他のフルパラメータトレーニング方法よりも優れています。
さらに、本フレームワークは、主観駆動ビデオ生成、ポーズ参照ビデオ生成、スタイリング、顔スワップなど、他のタスクにシームレスに統合できる。
関連論文リスト
- Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - Concat-ID: Towards Universal Identity-Preserving Video Synthesis [23.40342294656802]
Concat-IDは、アイデンティティ保存ビデオ合成のための統合されたフレームワークである。
それは、それらを組み込むための固有の3D自己認識機構にのみ依存する。
Concat-IDは、ID保存ビデオ合成のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-18T11:17:32Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。