論文の概要: Dynamic Concepts Personalization from Single Videos
- arxiv url: http://arxiv.org/abs/2502.14844v1
- Date: Thu, 20 Feb 2025 18:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:28:29.289266
- Title: Dynamic Concepts Personalization from Single Videos
- Title(参考訳): シングルビデオからの動的概念のパーソナライズ
- Authors: Rameen Abdal, Or Patashnik, Ivan Skorokhodov, Willi Menapace, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman,
- Abstract要約: 動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
- 参考スコア(独自算出の注目度): 92.62863918003575
- License:
- Abstract: Personalizing generative text-to-image models has seen remarkable progress, but extending this personalization to text-to-video models presents unique challenges. Unlike static concepts, personalizing text-to-video models has the potential to capture dynamic concepts, i.e., entities defined not only by their appearance but also by their motion. In this paper, we introduce Set-and-Sequence, a novel framework for personalizing Diffusion Transformers (DiTs)-based generative video models with dynamic concepts. Our approach imposes a spatio-temporal weight space within an architecture that does not explicitly separate spatial and temporal features. This is achieved in two key stages. First, we fine-tune Low-Rank Adaptation (LoRA) layers using an unordered set of frames from the video to learn an identity LoRA basis that represents the appearance, free from temporal interference. In the second stage, with the identity LoRAs frozen, we augment their coefficients with Motion Residuals and fine-tune them on the full video sequence, capturing motion dynamics. Our Set-and-Sequence framework results in a spatio-temporal weight space that effectively embeds dynamic concepts into the video model's output domain, enabling unprecedented editability and compositionality while setting a new benchmark for personalizing dynamic concepts.
- Abstract(参考訳): 生成的テキスト・ツー・イメージモデルのパーソナライズは目覚ましい進歩を遂げているが、このパーソナライズをテキスト・ツー・ビデオモデルに拡張することはユニークな課題である。
静的な概念とは異なり、テキスト・トゥ・ビデオ・モデルのパーソナライズには動的な概念、すなわちその外観だけでなく動きによって定義される実体をキャプチャする能力がある。
本稿では,Diffusion Transformers(DiT)をベースとした動的概念による生成ビデオモデルをパーソナライズする新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャ内で時空間重み空間を課す。
これは2つの重要な段階において達成される。
まず、ビデオから順序のないフレームの集合を用いてLoRA(Lo-Rank Adaptation)層を微調整し、時間的干渉のない外観を表すアイデンティティLoRAベースを学習する。
第2段階では、LoRAが凍結されたことにより、それらの係数をモーション残差で増加させ、フルビデオシーケンスで微調整し、モーションダイナミクスをキャプチャする。
我々のSet-and-Sequenceフレームワークは、ビデオモデルの出力領域に動的概念を効果的に埋め込み、動的概念をパーソナライズするための新しいベンチマークを設定しながら、前例のない編集性と構成性を実現する。
関連論文リスト
- CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成では,VDMが早期に映像の動きを回復する傾向が見られた。
復調の後期では、特定対象の外観詳細を修復するために、このモジュールを復元する。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z) - MotionCrafter: One-Shot Motion Customization of Diffusion Models [66.44642854791807]
ワンショットのインスタンス誘導モーションカスタマイズ手法であるMotionCrafterを紹介する。
MotionCrafterは、基準運動をベースモデルの時間成分に注入する並列時空間アーキテクチャを採用している。
トレーニング中、凍結ベースモデルは外見の正規化を提供し、運動から効果的に外見を分離する。
論文 参考訳(メタデータ) (2023-12-08T16:31:04Z) - MoStGAN-V: Video Generation with Temporal Motion Styles [28.082294960744726]
以前の作品は、自己回帰的な方法で、あるいは連続的な信号として時間に関して、任意の長さのビデオを生成しようと試みていた。
スタイルベースジェネレータの1つの時間に依存しない潜在ベクトルは、様々な時間的変動をモデル化するには不十分である。
多様な動きパターンをモデル化するために、時間依存の動作スタイルを導入する。
論文 参考訳(メタデータ) (2023-04-05T22:47:12Z) - Continuous-Time Video Generation via Learning Motion Dynamics with
Neural ODE [26.13198266911874]
動きと外観の異なる分布を学習する新しい映像生成手法を提案する。
本稿では,第1段階が任意のフレームレートで雑音ベクトルをキーポイント列に変換し,第2段階が与えられたキーポイントシーケンスと外観雑音ベクトルに基づいて映像を合成する2段階の手法を用いる。
論文 参考訳(メタデータ) (2021-12-21T03:30:38Z) - Dance In the Wild: Monocular Human Animation with Neural Dynamic
Appearance Synthesis [56.550999933048075]
そこで本研究では,課題に対処し,高品質な映像合成手法を提案する。
動的外見変化を捉えるために発電機重量を変調するために用いられる新しい動きシグネチャを導入する。
提案手法を課題ビデオの集合上で評価し,その手法が質的かつ定量的に最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2021-11-10T20:18:57Z) - StyleVideoGAN: A Temporal Generative Model using a Pretrained StyleGAN [70.31913835035206]
本稿では,映像合成問題に対する新しいアプローチを提案する。
トレーニング済みのStyleGANネットワークを利用することで、トレーニング対象の外観を制御できます。
我々の時間的アーキテクチャは、RGBフレームのシーケンスではなく、StyleGANの潜在符号のシーケンスに基づいて訓練される。
論文 参考訳(メタデータ) (2021-07-15T09:58:15Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。