論文の概要: MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
- arxiv url: http://arxiv.org/abs/2503.12689v1
- Date: Sun, 16 Mar 2025 23:15:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:50.621649
- Title: MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization
- Title(参考訳): MagicID: ID-ConsistentとDynamic-Preservedのビデオカスタマイズのためのハイブリッド推論最適化
- Authors: Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai,
- Abstract要約: ビデオアイデンティティのカスタマイズは、一貫したアイデンティティを維持し、ユーザの参照画像に基づいて重要なダイナミクスを示す高忠実度ビデオを作ることを目指している。
MagicIDは、ユーザの好みに合わせて、アイデンティティに一貫性があり、動的にリッチなビデオの生成を促進するために設計された新しいフレームワークである。
実験の結果、MagicIDは一貫性のあるアイデンティティと自然なダイナミクスを実現し、さまざまなメトリクスで既存のメソッドを超越していることがわかった。
- 参考スコア(独自算出の注目度): 24.398759596367103
- License:
- Abstract: Video identity customization seeks to produce high-fidelity videos that maintain consistent identity and exhibit significant dynamics based on users' reference images. However, existing approaches face two key challenges: identity degradation over extended video length and reduced dynamics during training, primarily due to their reliance on traditional self-reconstruction training with static images. To address these issues, we introduce $\textbf{MagicID}$, a novel framework designed to directly promote the generation of identity-consistent and dynamically rich videos tailored to user preferences. Specifically, we propose constructing pairwise preference video data with explicit identity and dynamic rewards for preference learning, instead of sticking to the traditional self-reconstruction. To address the constraints of customized preference data, we introduce a hybrid sampling strategy. This approach first prioritizes identity preservation by leveraging static videos derived from reference images, then enhances dynamic motion quality in the generated videos using a Frontier-based sampling method. By utilizing these hybrid preference pairs, we optimize the model to align with the reward differences between pairs of customized preferences. Extensive experiments show that MagicID successfully achieves consistent identity and natural dynamics, surpassing existing methods across various metrics.
- Abstract(参考訳): ビデオアイデンティティのカスタマイズは、一貫したアイデンティティを維持し、ユーザの参照画像に基づいて重要なダイナミクスを示す高忠実度ビデオを作ることを目指している。
しかし、既存のアプローチでは、2つの大きな課題に直面している。ビデオの長さを延ばすことによるアイデンティティの低下と、トレーニング中のダイナミクスの低減である。
これらの問題に対処するために、ユーザ好みに合わせて、アイデンティティ一貫性と動的にリッチなビデオの生成を直接促進するために設計された新しいフレームワークである$\textbf{MagicID}$を紹介した。
具体的には、従来の自己再構成に固執するのではなく、明示的なアイデンティティと動的報酬を持つペアワイズな選好ビデオデータを構築することを提案する。
カスタマイズされた嗜好データの制約に対処するために,ハイブリッドサンプリング戦略を導入する。
提案手法は,まず,参照画像から得られる静的なビデオを活用してアイデンティティの保存を優先し,フロンティアを用いたサンプリング手法を用いて生成されたビデオの動的動きの質を高める。
これらのハイブリッドな選好ペアを利用することで、カスタマイズされた選好のペア間の報酬差に合わせてモデルを最適化する。
大規模な実験により、MagicIDは、さまざまなメトリクスにまたがる既存のメソッドを越えながら、一貫したアイデンティティと自然なダイナミクスを達成することができた。
関連論文リスト
- Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning [40.70596166863986]
マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本研究では、カスタマイズされたビデオにおける概念の忠実さを維持しつつ、アイデンティティ分離の課題を効果的に解決する革新的なフレームワークであるConceptMasterを紹介する。
具体的には,拡散モデルに単体で注入された非結合型マルチコンセプト埋め込みを学習するための新しい戦略を導入する。
論文 参考訳(メタデータ) (2025-01-08T18:59:01Z) - VividFace: A Diffusion-Based Hybrid Framework for High-Fidelity Video Face Swapping [43.30061680192465]
ビデオ・フェイス・スワップに特化して設計された初めての拡散型フレームワークを提案する。
提案手法は,VidFaceVAEと組み合わせた特殊設計拡散モデルである。
本フレームワークは,従来の手法と比較して,アイデンティティの保存,時間的整合性,視覚的品質において優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-12-15T18:58:32Z) - TweedieMix: Improving Multi-Concept Fusion for Diffusion-based Image/Video Generation [67.97044071594257]
TweedieMixは、カスタマイズされた拡散モデルを構成する新しい方法である。
我々のフレームワークは、画像とビデオの拡散モデルに力ずくで拡張できる。
論文 参考訳(メタデータ) (2024-10-08T01:06:01Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Encode-in-Style: Latent-based Video Encoding using StyleGAN2 [0.7614628596146599]
本稿では,データ効率のよい高品質な映像再生を実現するために,エンドツーエンドの顔画像符号化手法を提案する。
このアプローチは、StyleGAN2イメージインバージョンとマルチステージの非線形遅延空間編集に基づいて、入力ビデオにほぼ匹敵するビデオを生成する。
論文 参考訳(メタデータ) (2022-03-28T05:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。