論文の概要: Proteus-ID: ID-Consistent and Motion-Coherent Video Customization
- arxiv url: http://arxiv.org/abs/2506.23729v1
- Date: Mon, 30 Jun 2025 11:05:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.03024
- Title: Proteus-ID: ID-Consistent and Motion-Coherent Video Customization
- Title(参考訳): Proteus-ID: ID-ConsistentとMotion-Coherent Video Customization
- Authors: Guiyu Zhang, Chen Shi, Zijian Jiang, Xunzhi Xiang, Jingjing Qian, Shaoshuai Shi, Li Jiang,
- Abstract要約: ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
この課題は、説明された外観や動作と整合しながらアイデンティティの整合性を維持すること、非現実的な剛性のない自然な流体運動を生成することである。
Proteus-IDは、アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための、新しい拡散ベースのフレームワークである。
- 参考スコア(独自算出の注目度): 17.792780924370103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video identity customization seeks to synthesize realistic, temporally coherent videos of a specific subject, given a single reference image and a text prompt. This task presents two core challenges: (1) maintaining identity consistency while aligning with the described appearance and actions, and (2) generating natural, fluid motion without unrealistic stiffness. To address these challenges, we introduce Proteus-ID, a novel diffusion-based framework for identity-consistent and motion-coherent video customization. First, we propose a Multimodal Identity Fusion (MIF) module that unifies visual and textual cues into a joint identity representation using a Q-Former, providing coherent guidance to the diffusion model and eliminating modality imbalance. Second, we present a Time-Aware Identity Injection (TAII) mechanism that dynamically modulates identity conditioning across denoising steps, improving fine-detail reconstruction. Third, we propose Adaptive Motion Learning (AML), a self-supervised strategy that reweights the training loss based on optical-flow-derived motion heatmaps, enhancing motion realism without requiring additional inputs. To support this task, we construct Proteus-Bench, a high-quality dataset comprising 200K curated clips for training and 150 individuals from diverse professions and ethnicities for evaluation. Extensive experiments demonstrate that Proteus-ID outperforms prior methods in identity preservation, text alignment, and motion quality, establishing a new benchmark for video identity customization. Codes and data are publicly available at https://grenoble-zhang.github.io/Proteus-ID/.
- Abstract(参考訳): ビデオアイデンティティのカスタマイズは、単一の参照画像とテキストプロンプトを与えられた特定の主題の現実的で時間的に整合したビデオを合成しようとする。
本課題は,(1)外見と動作の整合性を維持しながらアイデンティティの整合性を維持すること,(2)非現実的剛性のない自然な流体運動を生成すること,の2つの課題を提示する。
これらの課題に対処するために,アイデンティティ一貫性とモーションコヒーレントなビデオカスタマイズのための新しい拡散ベースのフレームワークであるProteus-IDを紹介する。
まず、Q-Formerを用いて、視覚的およびテキスト的手がかりを結合したアイデンティティ表現に統一し、拡散モデルへの一貫性のあるガイダンスを提供し、モダリティの不均衡をなくすマルチモーダル・アイデンティティ・フュージョン(MIF)モジュールを提案する。
第2に,識別条件を段階的に動的に調整し,細部再構成を改善するTime-Aware Identity Injection (TAII) 機構を提案する。
第3に、光フローに基づく運動熱マップに基づいてトレーニング損失を再重み付けし、追加入力を必要とせずに運動リアリズムを向上する自己指導型学習手法であるAdaptive Motion Learning (AML)を提案する。
この課題を支援するために,プロテウス・ベンチ(Proteus-Bench)という,訓練用に200Kのキュレートされたクリップと,評価のために多様な専門職や民族から150人の個人からなる高品質なデータセットを構築した。
大規模な実験により、Proteus-IDはアイデンティティ保存、テキストアライメント、モーションクオリティにおいて従来の手法よりも優れており、ビデオアイデンティティのカスタマイズのための新しいベンチマークが確立されている。
コードとデータはhttps://grenoble-zhang.github.io/Proteus-ID/で公開されている。
関連論文リスト
- Motion by Queries: Identity-Motion Trade-offs in Text-to-Video Generation [47.61288672890036]
本研究では,テキスト・ビデオ・モデルにおける自己注意クエリ機能がどのように動作,構造,アイデンティティを制御するかを検討する。
ゼロショットモーション転送法と、一貫したマルチショットビデオ生成のためのトレーニング不要手法の2つの応用を実証する。
論文 参考訳(メタデータ) (2024-12-10T18:49:39Z) - MotionCharacter: Identity-Preserving and Motion Controllable Human Video Generation [7.474418338825595]
MotionCharacterは、効率的で高忠実なヒューマンビデオ生成フレームワークである。
フレキシブルな属性修正を可能とし,IDの完全性を維持するためのID保存モジュールを提案する。
また,ID一貫性と領域認識損失機構を導入し,アイデンティティの整合性と詳細な忠実度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-11-27T12:15:52Z) - PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - MagDiff: Multi-Alignment Diffusion for High-Fidelity Video Generation and Editing [90.06041718086317]
我々は、高忠実度ビデオ生成と編集の両方のタスクに対して、MagDiffと呼ばれる統合多重配位拡散を提案する。
提案したMagDiffは、主観駆動アライメント、適応プロンプトアライメント、高忠実アライメントを含む3種類のアライメントを導入している。
論文 参考訳(メタデータ) (2023-11-29T03:36:07Z) - Multi-Stage Spatio-Temporal Aggregation Transformer for Video Person
Re-identification [78.08536797239893]
本稿では,2つの新しいプロキシ埋め込みモジュールを設計したMSTAT(Multi-Stage Space-Temporal Aggregation Transformer)を提案する。
MSTATは、属性関連、アイデンティティ関連、および属性関連情報をビデオクリップからエンコードする3つのステージから構成される。
MSTATは様々な標準ベンチマークで最先端の精度を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-02T05:17:31Z) - An Identity-Preserved Framework for Human Motion Transfer [3.6286856791379463]
HMT(Human Motion Transfer)は、被写体の動きを模倣することにより、被写体のためのビデオクリップを生成することを目的とする。
従来の手法は高品質なビデオでは良い結果を得たが、ソースとターゲットの動きから個々の動き情報を見失った。
我々は、textitIDPresと呼ばれる新しいID保存型HMTネットワークを提案する。
論文 参考訳(メタデータ) (2022-04-14T10:27:19Z) - Identity-Aware Multi-Sentence Video Description [105.13845996039277]
本稿では,一組のクリップ内に一貫した人物の身元を予測することを目的とした,身元確認の補助的タスクを提案する。
鍵となるコンポーネントの1つは、性別を意識したテキスト表現であり、メインモデルにおける追加の性別予測目標である。
実験の結果,提案したフィリング・イン・ザ・アイデンティティ・モデルは,いくつかのベースラインや最近の研究よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-08-22T09:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。