論文の概要: AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References
- arxiv url: http://arxiv.org/abs/2603.25188v1
- Date: Thu, 26 Mar 2026 08:54:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.196978
- Title: AnyID: Ultra-Fidelity Universal Identity-Preserving Video Generation from Any Visual References
- Title(参考訳): AnyID:超忠実なユニバーサルアイデンティティ保存ビデオ
- Authors: Jiahao Wang, Hualian Sheng, Sijia Cai, Yuxiao Yang, Weizhan Zhang, Caixia Yan, Bing Deng, Jieping Ye,
- Abstract要約: 我々は,超忠実なアイデンティティ保存ビデオ生成フレームワークであるAnyIDを提案する。
まず,不均一な同一性入力を結合表現に効果的に統一する,スケーラブルなオムニ参照アーキテクチャを提案する。
第2に、1つの参照を標準アンカーとして指定し、新しい微分プロンプトを用いて正確な属性レベルの制御を可能にする一次参照生成パラダイムを提案する。
- 参考スコア(独自算出の注目度): 52.81991915377852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Identity-preserving video generation offers powerful tools for creative expression, allowing users to customize videos featuring their beloved characters. However, prevailing methods are typically designed and optimized for a single identity reference. This underlying assumption restricts creative flexibility by inadequately accommodating diverse real-world input formats. Relying on a single source also constitutes an ill-posed scenario, causing an inherently ambiguous setting that makes it difficult for the model to faithfully reproduce an identity across novel contexts. To address these issues, we present AnyID, an ultra-fidelity identity-preservation video generation framework that features two core contributions. First, we introduce a scalable omni-referenced architecture that effectively unifies heterogeneous identity inputs (e.g., faces, portraits, and videos) into a cohesive representation. Second, we propose a primary-referenced generation paradigm, which designates one reference as a canonical anchor and uses a novel differential prompt to enable precise, attribute-level controllability. We conduct training on a large-scale, meticulously curated dataset to ensure robustness and high fidelity, and then perform a final fine-tuning stage using reinforcement learning. This process leverages a preference dataset constructed from human evaluations, where annotators performed pairwise comparisons of videos based on two key criteria: identity fidelity and prompt controllability. Extensive evaluations validate that AnyID achieves ultra-high identity fidelity as well as superior attribute-level controllability across different task settings.
- Abstract(参考訳): アイデンティティを保存するビデオ生成は、クリエイティブな表現のための強力なツールを提供する。
しかし、一般的な手法は一般に単一のID参照のために設計され、最適化されている。
この前提は、様々な現実世界の入力フォーマットを不適切に調整することで、創造的な柔軟性を制限する。
単一のソースをリライジングすることは、不適切なシナリオを構成し、本質的に曖昧な設定を引き起こし、モデルが新しいコンテキストをまたいでアイデンティティを忠実に再現することが困難になる。
これらの問題に対処するため、我々は2つのコアコントリビューションを特徴とする超忠実なアイデンティティ保存ビデオ生成フレームワークであるAnyIDを提示する。
まず、不均一なアイデンティティ入力(例えば、顔、肖像画、ビデオ)を効果的に結合表現に統一するスケーラブルなオムニ参照アーキテクチャを導入する。
第2に、1つの参照を標準アンカーとして指定し、新しい微分プロンプトを用いて正確な属性レベルの制御を可能にする一次参照生成パラダイムを提案する。
大規模かつ精巧にキュレートされたデータセットを用いてトレーニングを行い、ロバスト性と高忠実性を確保するとともに、強化学習を用いて最終微調整を行う。
このプロセスは、人間の評価から構築された嗜好データセットを活用し、アノテーションは2つの主要な基準、すなわちアイデンティティの忠実さと迅速な制御性に基づいて、ビデオのペアワイズ比較を行った。
広範囲な評価により、AnyIDは、異なるタスク設定に対して優れた属性レベル制御性とともに、超高同一性を達成することが検証される。
関連論文リスト
- Identity as Presence: Towards Appearance and Voice Personalized Joint Audio-Video Generation [20.141976283428562]
高忠実度パーソナライゼーションを実現するために,アイデンティティ対応のジョイントビデオ生成のための統合フレームワークを提案する。
具体的には、音声と視覚のモダリティにまたがるペアアノテーションを用いて、IDを含む情報を自動抽出するデータキュレーションパイプラインを導入する。
顔の外観と声帯が同一性を持つ制御信号として機能する単一・多目的シナリオに対する柔軟でスケーラブルなID注入機構を提案する。
論文 参考訳(メタデータ) (2026-03-18T16:13:48Z) - DreamID-V:Bridging the Image-to-Video Gap for High-Fidelity Face Swapping via Diffusion Transformer [21.788582116033684]
Video Face Swapping (VFS)は、ターゲットのビデオにソースIDをシームレスに注入する必要がある。
既存の方法は、時間的一貫性を維持しながら、アイデンティティの類似性と属性の保存を維持するのに苦労する。
本稿では,画像顔スワッピングの優位性をビデオ領域にシームレスに転送するための包括的フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-04T08:07:11Z) - Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization [82.31106470150844]
我々はOmni-Attributeを紹介した。Omni-Attributeは、属性固有の表現を学習するための最初のオープン語彙画像属性エンコーダである。
我々は、生成的忠実度と対照的な非絡み合いのバランスをとる、二重目的学習パラダイムを使用する。
結果として得られる埋め込みは、オープン語彙属性の検索、パーソナライゼーション、合成生成に有効である。
論文 参考訳(メタデータ) (2025-12-11T18:59:56Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - TokenAR: Multiple Subject Generation via Autoregressive Token-level enhancement [87.82338951215131]
TokenARは、参照ID混乱問題に対処するための、単純だが効果的なトークンレベル拡張機構である。
Token Injectionのインストラクションは、参照トークンの詳細なおよび補完的な事前を注入する、余分な視覚的特徴コンテナの役割として機能する。
Identity-token disentanglement Strategy(ITD)は、トークン表現を個々のアイデンティティの特徴を独立に表現するために明示的にガイドする。
論文 参考訳(メタデータ) (2025-10-18T03:36:26Z) - WithAnyone: Towards Controllable and ID Consistent Image Generation [83.55786496542062]
アイデンティティ・一貫性・ジェネレーションは、テキスト・ツー・イメージ研究において重要な焦点となっている。
マルチパーソンシナリオに適した大規模ペアデータセットを開発する。
本稿では,データと多様性のバランスをとるためにペアデータを活用する,対照的なアイデンティティ損失を持つ新たなトレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:54Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。