論文の概要: Subject-driven Video Generation via Disentangled Identity and Motion
- arxiv url: http://arxiv.org/abs/2504.17816v1
- Date: Wed, 23 Apr 2025 06:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:53.512681
- Title: Subject-driven Video Generation via Disentangled Identity and Motion
- Title(参考訳): アンタングル・アイデンティティとモーションによる被験者駆動映像生成
- Authors: Daneul Kim, Jingxu Zhang, Wonjoon Jin, Sunghyun Cho, Qi Dai, Jaesik Park, Chong Luo,
- Abstract要約: 本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。
提案手法は、ゼロショット設定で既存のビデオカスタマイズモデルよりも優れた、強力な被写体整合性とスケーラビリティを実現する。
- 参考スコア(独自算出の注目度): 52.54835936914813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose to train a subject-driven customized video generation model through decoupling the subject-specific learning from temporal dynamics in zero-shot without additional tuning. A traditional method for video customization that is tuning-free often relies on large, annotated video datasets, which are computationally expensive and require extensive annotation. In contrast to the previous approach, we introduce the use of an image customization dataset directly on training video customization models, factorizing the video customization into two folds: (1) identity injection through image customization dataset and (2) temporal modeling preservation with a small set of unannotated videos through the image-to-video training method. Additionally, we employ random image token dropping with randomized image initialization during image-to-video fine-tuning to mitigate the copy-and-paste issue. To further enhance learning, we introduce stochastic switching during joint optimization of subject-specific and temporal features, mitigating catastrophic forgetting. Our method achieves strong subject consistency and scalability, outperforming existing video customization models in zero-shot settings, demonstrating the effectiveness of our framework.
- Abstract(参考訳): 本稿では,ゼロショットにおける時間的ダイナミクスから被験者固有の学習を分離し,追加のチューニングを伴わずに,主題駆動のカスタマイズビデオ生成モデルを訓練することを提案する。
チューニング不要な従来のビデオカスタマイズ手法は、計算コストが高く、広範なアノテーションを必要とする大規模な注釈付きビデオデータセットに依存していることが多い。
従来の手法とは対照的に,映像カスタマイズモデルのトレーニングに画像カスタマイズデータセットを直接使用し,(1)画像カスタマイズデータセットによるアイデンティティインジェクションと(2)画像と映像のトレーニング方法による小さなビデオセットによる時間的モデリング保存の2つに分類する。
さらに,イメージ・ツー・ビデオの微調整中にランダム化画像初期化を伴うランダムな画像トークンのドロップを用いて,コピー・アンド・ペースト問題を緩和する。
学習をさらに強化するため,主観的特徴と時間的特徴の同時最適化における確率的スイッチングを導入し,破滅的忘れを軽減した。
提案手法は,ゼロショット設定で既存の動画カスタマイズモデルより優れた精度を実現し,フレームワークの有効性を実証する。
関連論文リスト
- MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization [24.398759596367103]
ビデオアイデンティティのカスタマイズは、一貫したアイデンティティを維持し、ユーザの参照画像に基づいて重要なダイナミクスを示す高忠実度ビデオを作ることを目指している。
MagicIDは、ユーザの好みに合わせて、アイデンティティに一貫性があり、動的にリッチなビデオの生成を促進するために設計された新しいフレームワークである。
実験の結果、MagicIDは一貫性のあるアイデンティティと自然なダイナミクスを実現し、さまざまなメトリクスで既存のメソッドを超越していることがわかった。
論文 参考訳(メタデータ) (2025-03-16T23:15:09Z) - Multi-subject Open-set Personalization in Video Generation [110.02124633005516]
我々は、マルチオブジェクトでオープンなパーソナライズ機能を備えたビデオモデルとして、Video Alchemist $-$を提示する。
本モデルは,各条件付き参照画像と対応する主観レベルテキストプロンプトを融合するDiffusion Transformerモジュール上に構築されている。
本手法は,定量評価と定性評価の両方において,既存のパーソナライズ手法を著しく上回っている。
論文 参考訳(メタデータ) (2025-01-10T18:59:54Z) - SUGAR: Subject-Driven Video Customization in a Zero-Shot Manner [46.75063691424628]
我々は、主観的動画カスタマイズのためのゼロショット方式SUGARを提案する。
入力画像が与えられた場合、SUGARは被写体のビデオを生成し、任意の視覚属性で生成を調整できる。
論文 参考訳(メタデータ) (2024-12-13T20:01:51Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Customize-A-Video: One-Shot Motion Customization of Text-to-Video Diffusion Models [48.56724784226513]
本研究では,単一参照ビデオからの動作をモデル化し,空間的・時間的変化のある新しい主題やシーンに適応するCustomize-A-Videoを提案する。
提案するモジュールは、ステージ化されたパイプラインでトレーニングされ、プラグイン・アンド・プレイ方式で推論され、様々な下流タスクへの容易に拡張できる。
論文 参考訳(メタデータ) (2024-02-22T18:38:48Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Composable Augmentation Encoding for Video Representation Learning [94.2358972764708]
自己教師型ビデオ表現学習におけるコントラスト手法に着目した。
対照的な学習における一般的なパラダイムは、同じインスタンスで異なるデータビューをサンプリングし、異なるデータインスタンスを負として、ポジティブペアを構築することである。
そこで我々は,拡張パラメータの列を明示的に提供する,拡張対応型コントラスト学習フレームワークを提案する。
提案手法は,特定の空間的あるいは時間的拡張に関する情報をエンコードすると同時に,多数のビデオベンチマークで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-04-01T16:48:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。