論文の概要: Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA
- arxiv url: http://arxiv.org/abs/2603.08210v2
- Date: Tue, 10 Mar 2026 02:38:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.115923
- Title: Video2LoRA: Unified Semantic-Controlled Video Generation via Per-Reference-Video LoRA
- Title(参考訳): Video2LoRA: 参照単位のLoRAによる統合セマンティックなビデオ生成
- Authors: Zexi Wu, Qinghe Wang, Jing Dai, Baolu Li, Yiming Zhang, Yue Ma, Xu Jia, Hongming Xu,
- Abstract要約: 意味制御ビデオ生成のためのスケーラブルで汎用的なフレームワークであるVideo2LoRAを提案する。
Video2LoRAは、各セマンティック入力に対してパーソナライズされたLoRA重みを予測するために、軽量なハイパーネットワークを使用する。
モデルは、キースタイルとコンテンツのバリエーションを保持しながら、参照セマンティクスと整合したビデオを生成する。
- 参考スコア(独自算出の注目度): 17.6011255931793
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving semantic alignment across diverse video generation conditions remains a significant challenge. Methods that rely on explicit structural guidance often enforce rigid spatial constraints that limit semantic flexibility, whereas models tailored for individual control types lack interoperability and adaptability. These design bottlenecks hinder progress toward flexible and efficient semantic video generation. To address this, we propose Video2LoRA, a scalable and generalizable framework for semantic-controlled video generation that conditions on a reference video. Video2LoRA employs a lightweight hypernetwork to predict personalized LoRA weights for each semantic input, which are combined with auxiliary matrices to form adaptive LoRA modules integrated into a frozen diffusion backbone. This design enables the model to generate videos consistent with the reference semantics while preserving key style and content variations, eliminating the need for any per-condition training. Notably, the final model weights less than 150MB, making it highly efficient for storage and deployment. Video2LoRA achieves coherent, semantically aligned generation across diverse conditions and exhibits strong zero-shot generalization to unseen semantics.
- Abstract(参考訳): 多様なビデオ生成条件のセマンティックアライメントを実現することは、依然として大きな課題である。
明示的な構造的ガイダンスに依存する手法は、しばしば意味的柔軟性を制限する厳密な空間的制約を強制するが、個々の制御タイプに適したモデルは相互運用性と適応性に欠ける。
これらの設計ボトルネックは、フレキシブルで効率的なセマンティックビデオ生成への進歩を妨げる。
そこで本研究では,参照ビデオに条件付きセマンティック制御ビデオ生成のための,スケーラブルで汎用的なフレームワークであるVideo2LoRAを提案する。
Video2LoRAは、各セマンティック入力に対してパーソナライズされたLoRA重みを予測するために軽量なハイパーネットワークを使用し、補助行列と組み合わせて凍結拡散バックボーンに統合された適応的なLoRAモジュールを形成する。
この設計により、キースタイルやコンテンツのバリエーションを保ちながら、参照セマンティクスと整合したビデオを生成することができ、条件ごとのトレーニングは不要になる。
特に、最終モデルは150MB未満で、ストレージとデプロイメントの効率が高い。
Video2LoRAは、様々な条件にまたがる一貫性のあるセマンティックアライメントの生成を実現し、目に見えないセマンティックスに強いゼロショットの一般化を示す。
関連論文リスト
- CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - AutoLoRA: Automatic LoRA Retrieval and Fine-Grained Gated Fusion for Text-to-Image Generation [32.46570968627392]
低ランク適応(LoRA)は、最小パラメータオーバーヘッドでモデルのカスタマイズを可能にする効果を実証している。
意味駆動型LoRA検索と動的アグリゲーションを可能にする新しいフレームワークを提案する。
提案手法は画像生成のパーフェマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-08-04T06:36:00Z) - Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA [84.89284738178932]
テキスト・ビデオ・モデルにおける動的概念のパーソナライズのためのゼロショットフレームワークを提案する。
提案手法は,空間的に入力と出力のペアを整理する構造化2x2ビデオグリッドを利用する。
専用のグリッドフィルモジュールが部分的に観測されたレイアウトを完了し、時間的に一貫性とアイデンティティを保った出力を生成する。
論文 参考訳(メタデータ) (2025-07-23T22:09:38Z) - MAGREF: Masked Guidance for Any-Reference Video Generation with Subject Disentanglement [47.064467920954776]
我々は、任意の参照ビデオ生成のための統一的で効果的なフレームワークであるMAGREFを紹介する。
提案手法は,マスキング誘導と主観的ゆがみ機構を取り入れたものである。
包括的なベンチマークの実験は、MAGREFが既存の最先端のアプローチを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-05-29T17:58:15Z) - SkyReels-V2: Infinite-length Film Generative Model [35.00453687783287]
Infinite-length Film Generative Model である SkyReels-V2 を提案し,マルチモーダル大言語モデル(MLLM),マルチステージ事前学習,強化学習,拡散強制フレームワークを提案する。
我々は,基本映像生成のためのプログレッシブ・レゾリューション・プレトレーニングを確立し,その後4段階のポストトレーニング強化を行った。
論文 参考訳(メタデータ) (2025-04-17T16:37:27Z) - Dynamic Concepts Personalization from Single Videos [92.62863918003575]
動的概念で生成ビデオモデルをパーソナライズするための新しいフレームワークであるSet-and-Sequenceを紹介する。
提案手法は,空間的特徴と時間的特徴を明確に区別しないアーキテクチャにおいて,時間的重み空間を課す。
我々のフレームワークは動的概念をビデオモデルの出力領域に埋め込んでおり、前例のない編集性と構成性を実現している。
論文 参考訳(メタデータ) (2025-02-20T18:53:39Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [118.72266141321647]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。