論文の概要: Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
- arxiv url: http://arxiv.org/abs/2508.07901v1
- Date: Mon, 11 Aug 2025 12:17:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:29.083177
- Title: Stand-In: A Lightweight and Plug-and-Play Identity Control for Video Generation
- Title(参考訳): スタンドイン:映像生成のための軽量・プラグアンドプレイID制御
- Authors: Bowen Xue, Qixin Yan, Wenjing Wang, Hao Liu, Chen Li,
- Abstract要約: ビデオ生成におけるアイデンティティ保護のための軽量かつプラグアンドプレイのフレームワークであるStand-Inを提案する。
我々のフレームワークは、ビデオの品質とアイデンティティの保存において優れた結果をもたらし、他のフルパラメータトレーニング方法よりも優れています。
我々のフレームワークは、主題駆動のビデオ生成、ポーズ参照ビデオ生成、スタイル化、顔交換など、他のタスクにシームレスに統合できる。
- 参考スコア(独自算出の注目度): 12.243958169714166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generating high-fidelity human videos that match user-specified identities is important yet challenging in the field of generative AI. Existing methods often rely on an excessive number of training parameters and lack compatibility with other AIGC tools. In this paper, we propose Stand-In, a lightweight and plug-and-play framework for identity preservation in video generation. Specifically, we introduce a conditional image branch into the pre-trained video generation model. Identity control is achieved through restricted self-attentions with conditional position mapping, and can be learned quickly with only 2000 pairs. Despite incorporating and training just $\sim$1\% additional parameters, our framework achieves excellent results in video quality and identity preservation, outperforming other full-parameter training methods. Moreover, our framework can be seamlessly integrated for other tasks, such as subject-driven video generation, pose-referenced video generation, stylization, and face swapping.
- Abstract(参考訳): 生成AIの分野では、ユーザが特定したアイデンティティにマッチする高忠実度な人間のビデオを生成することが重要であるが、難しい。
既存のメソッドは、しばしば過剰な数のトレーニングパラメータに依存し、他のAIGCツールとの互換性を欠いている。
本稿では,ビデオ生成におけるアイデンティティ保護のための軽量かつプラグアンドプレイフレームワークであるStand-Inを提案する。
具体的には、事前訓練された映像生成モデルに条件付き画像分岐を導入する。
アイデンティティ制御は、条件付き位置マッピングによる制限された自己アテンションによって達成され、2000ペアで素早く学習することができる。
追加パラメータを$\sim$1\%だけ取り入れてトレーニングしても、ビデオの品質とアイデンティティ保存の優れた結果が得られ、他のフルパラメータトレーニング方法よりも優れています。
さらに、本フレームワークは、主観駆動ビデオ生成、ポーズ参照ビデオ生成、スタイリング、顔スワップなど、他のタスクにシームレスに統合できる。
関連論文リスト
- AlcheMinT: Fine-grained Temporal Control for Multi-Reference Consistent Video Generation [58.844504598618094]
本稿では、被験者駆動ビデオ生成のための明示的なタイムスタンプ条件付きフレームワークAlcheMinTを提案する。
提案手法では,時間間隔の符号化を解き放つ新しい位置符号化機構を導入する。
我々は、視覚的アイデンティティとビデオキャプションの結合を強化するために、主観記述型テキストトークンを導入し、世代間あいまいさを緩和する。
論文 参考訳(メタデータ) (2025-12-11T18:59:34Z) - UnityVideo: Unified Multi-Modal Multi-Task Learning for Enhancing World-Aware Video Generation [61.98887854225878]
私たちは、世界対応のビデオ生成のための統合フレームワークUnityVideoを紹介します。
提案手法は,(1)異種学習パラダイムを統一するための動的ノイズ化,(2)文脈内学習者によるモダリティ・スイッチャーの2つのコアコンポーネントを特徴とする。
私たちは、UnityVideoが優れたビデオ品質、一貫性、物理世界の制約との整合性を改善することを実証した。
論文 参考訳(メタデータ) (2025-12-08T18:59:01Z) - ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - BachVid: Training-Free Video Generation with Consistent Background and Character [62.46376250180513]
Diffusion Transformer (DiTs) は、最近、テキスト・トゥ・ビデオ(T2V)生成に大きな進歩をもたらした。
既存のメソッドは通常、参照イメージや広範なトレーニングに依存しており、しばしば文字の一貫性にのみ対処する。
我々は、参照画像を必要としない一貫したビデオ生成を実現する、最初のトレーニング不要な方法であるBachVidを紹介する。
論文 参考訳(メタデータ) (2025-10-24T17:56:37Z) - Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement [58.85593321752693]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、参照対象画像とテキストプロンプトの両方に忠実なビデオを生成する。
本稿では,映像記述と参照画像のセマンティックギャップを橋渡しする,トレーニングフリープロンプト,イメージ,ガイダンス拡張フレームワークを提案する。
ACM Multimedia 2025 Identity-Preserving Video Generation Challengeで優勝した。
論文 参考訳(メタデータ) (2025-09-01T11:03:13Z) - Controllable Video Generation: A Survey [72.38313362192784]
本稿では、制御可能なビデオ生成の体系的レビューを行い、理論的基礎と最近の現場の進歩の両方について述べる。
まず、主要な概念を導入し、一般的に使われているオープンソースビデオ生成モデルを紹介します。
次に、映像拡散モデルにおける制御機構に着目し、生成を誘導する認知過程に異なる種類の条件を組み込む方法について分析する。
論文 参考訳(メタデータ) (2025-07-22T06:05:34Z) - Proteus-ID: ID-Consistent and Motion-Coherent Video Customization [17.792780924370103]
ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
論文 参考訳(メタデータ) (2025-06-30T11:05:32Z) - Concat-ID: Towards Universal Identity-Preserving Video Synthesis [23.40342294656802]
Concat-IDは、アイデンティティ保存ビデオ合成のための統合されたフレームワークである。
それは、それらを組み込むための固有の3D自己認識機構にのみ依存する。
Concat-IDは、ID保存ビデオ合成のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-18T11:17:32Z) - VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。
一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。
VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文 参考訳(メタデータ) (2024-12-03T08:33:50Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - ID-Animator: Zero-Shot Identity-Preserving Human Video Generation [16.438935466843304]
ID-アニメーター(ID-Animator)は、単一の参照顔画像からパーソナライズされたビデオを生成する、ゼロショットのヒューマンビデオ生成アプローチである。
本手法は,アニメーションフや各種コミュニティバックボーンモデルのような,トレーニング済みのT2Vモデルと互換性が高い。
論文 参考訳(メタデータ) (2024-04-23T17:59:43Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。