論文の概要: Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA
- arxiv url: http://arxiv.org/abs/2507.17963v1
- Date: Wed, 23 Jul 2025 22:09:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.639671
- Title: Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA
- Title(参考訳): グリッドベースLoRAを用いたゼロショット動的概念パーソナライゼーション
- Authors: Rameen Abdal, Or Patashnik, Ekaterina Deyneka, Hao Chen, Aliaksandr Siarohin, Sergey Tulyakov, Daniel Cohen-Or, Kfir Aberman,
- Abstract要約: テキスト・ビデオ・モデルにおける動的概念のパーソナライズのためのゼロショットフレームワークを提案する。
提案手法は,空間的に入力と出力のペアを整理する構造化2x2ビデオグリッドを利用する。
専用のグリッドフィルモジュールが部分的に観測されたレイアウトを完了し、時間的に一貫性とアイデンティティを保った出力を生成する。
- 参考スコア(独自算出の注目度): 84.89284738178932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-video generation have enabled high-quality synthesis from text and image prompts. While the personalization of dynamic concepts, which capture subject-specific appearance and motion from a single video, is now feasible, most existing methods require per-instance fine-tuning, limiting scalability. We introduce a fully zero-shot framework for dynamic concept personalization in text-to-video models. Our method leverages structured 2x2 video grids that spatially organize input and output pairs, enabling the training of lightweight Grid-LoRA adapters for editing and composition within these grids. At inference, a dedicated Grid Fill module completes partially observed layouts, producing temporally coherent and identity preserving outputs. Once trained, the entire system operates in a single forward pass, generalizing to previously unseen dynamic concepts without any test-time optimization. Extensive experiments demonstrate high-quality and consistent results across a wide range of subjects beyond trained concepts and editing scenarios.
- Abstract(参考訳): 近年のテキスト・ビデオ生成の進歩により、テキストと画像のプロンプトから高品質な合成が可能になった。
動的概念のパーソナライズは、単一のビデオから被写体特有の外観と動きをキャプチャするが、既存のほとんどの方法は、インスタンスごとの微調整を必要とし、スケーラビリティを制限している。
テキスト・ビデオ・モデルにおける動的概念のパーソナライズのためのフルゼロショットフレームワークを提案する。
提案手法は2x2ビデオグリッドを用いて,空間的に入力と出力のペアを整理し,これらのグリッド内で編集と構成を行うための軽量なGrid-LoRAアダプタの訓練を可能にする。
推測では、専用のGrid Fillモジュールが部分的に観測されたレイアウトを完了し、時間的に一貫性とアイデンティティを保存する出力を生成する。
トレーニングが完了すると、システム全体が単一のフォワードパスで動作し、テストタイムの最適化なしに、以前は見つからなかった動的概念を一般化する。
大規模な実験は、訓練された概念や編集シナリオを超えて、幅広い分野にわたる高品質で一貫した結果を実証している。
関連論文リスト
- Compositional Video Synthesis by Temporal Object-Centric Learning [3.2228025627337864]
本稿では、時間的に一貫したオブジェクト中心表現を利用する合成ビデオ合成のための新しいフレームワークを提案する。
提案手法は, 物体中心スロットの変動を学習し, 事前学習した拡散モデルに条件付けすることによって, 時間的ダイナミクスを明示的に捉える。
この設計により、時間コヒーレンスに優れた高品質の画素レベルのビデオ合成が可能となる。
論文 参考訳(メタデータ) (2025-07-28T14:11:04Z) - DyST-XL: Dynamic Layout Planning and Content Control for Compositional Text-to-Video Generation [14.34140569565309]
DyST-XLは、フレーム認識制御により、既製のテキスト・ビデオモデルを強化するフレームワークである。
コードはhttps://github.com/XiaoBuL/DyST-XLで公開されている。
論文 参考訳(メタデータ) (2025-04-21T11:41:22Z) - SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - STOP: Integrated Spatial-Temporal Dynamic Prompting for Video Understanding [48.12128042470839]
本稿では,STOP(Spatial-Temporal dynamic Prompting)モデルを提案する。
2つの相補的なモジュールで構成され、フレーム内の空間的プロンプトとフレーム間の時間的プロンプトである。
STOPは、最先端のメソッドに対して一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-20T09:16:20Z) - Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - VIMI: Grounding Video Generation through Multi-modal Instruction [89.90065445082442]
既存のテキスト間拡散モデルは、事前訓練のためにテキストのみのエンコーダにのみ依存する。
検索手法を用いて大規模マルチモーダル・プロンプト・データセットを構築し,テキスト・プロンプトとテキスト・プロンプトのペア化を行う。
マルチモーダル命令を組み込んだ3つのビデオ生成タスクにおいて,第1ステージからモデルを微調整する。
論文 参考訳(メタデータ) (2024-07-08T18:12:49Z) - TC-Bench: Benchmarking Temporal Compositionality in Text-to-Video and Image-to-Video Generation [97.96178992465511]
生成したビデオは、新しい概念の出現と、時間経過とともに現実の動画のようにそれらの関係の遷移を取り入れるべきである、と我々は主張する。
ビデオ生成モデルの時間構成性を評価するため,細部まで作り上げたテキストプロンプトのベンチマークであるTC-Benchと,それに対応する地上の真理ビデオ,ロバストな評価指標を提案する。
論文 参考訳(メタデータ) (2024-06-12T21:41:32Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Condensing a Sequence to One Informative Frame for Video Recognition [113.3056598548736]
本稿では,まず映像シーケンスを情報的「フレーム」に凝縮する2段階の代替手法について検討する。
有効な疑問は、どのように「有用な情報」を定義し、シーケンスから1つの合成フレームに蒸留するかである。
IFSは画像ベースの2Dネットワークとクリップベースの3Dネットワークを一貫して改善している。
論文 参考訳(メタデータ) (2022-01-11T16:13:43Z) - Editable Free-viewpoint Video Using a Layered Neural Representation [35.44420164057911]
我々は,スパース16カメラのみを用いた大規模ダイナミックシーンの編集可能な自由視点映像生成のための最初のアプローチを提案する。
私たちのアプローチの核心は、環境そのものを含む各動的エンティティがST-NeRFと呼ばれる時空コヒーレントな神経層放射線表現に定式化される新しい階層化された神経表現です。
実験は,ダイナミックシーンにおける高品質,フォトリアリスティック,編集可能な自由視点映像生成を実現するための手法の有効性を示す。
論文 参考訳(メタデータ) (2021-04-30T06:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。