論文の概要: LiON-LoRA: Rethinking LoRA Fusion to Unify Controllable Spatial and Temporal Generation for Video Diffusion
- arxiv url: http://arxiv.org/abs/2507.05678v1
- Date: Tue, 08 Jul 2025 05:00:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.570674
- Title: LiON-LoRA: Rethinking LoRA Fusion to Unify Controllable Spatial and Temporal Generation for Video Diffusion
- Title(参考訳): Lion-LoRA:ビデオ拡散のための制御可能な空間・時間生成を統一するためにLoRA融合を再考
- Authors: Yisu Zhang, Chenjie Cao, Chaohui Yu, Jianke Zhu,
- Abstract要約: ビデオ拡散モデル(VDM)は,大規模データから学習することで現実的な映像を合成する際,顕著な能力を示した。
線形スケーラビリティ,直交性,ノルムの整合性という3つの基本原理を通じて,LoRAの融合を再考する新しいフレームワークであるLiON-LoRAを提案する。
実験により、LiON-LoRAは軌道制御精度と運動強度調整において最先端の手法より優れ、最小限のトレーニングデータでより優れた一般化を実現していることが示された。
- 参考スコア(独自算出の注目度): 20.022547219190013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video Diffusion Models (VDMs) have demonstrated remarkable capabilities in synthesizing realistic videos by learning from large-scale data. Although vanilla Low-Rank Adaptation (LoRA) can learn specific spatial or temporal movement to driven VDMs with constrained data, achieving precise control over both camera trajectories and object motion remains challenging due to the unstable fusion and non-linear scalability. To address these issues, we propose LiON-LoRA, a novel framework that rethinks LoRA fusion through three core principles: Linear scalability, Orthogonality, and Norm consistency. First, we analyze the orthogonality of LoRA features in shallow VDM layers, enabling decoupled low-level controllability. Second, norm consistency is enforced across layers to stabilize fusion during complex camera motion combinations. Third, a controllable token is integrated into the diffusion transformer (DiT) to linearly adjust motion amplitudes for both cameras and objects with a modified self-attention mechanism to ensure decoupled control. Additionally, we extend LiON-LoRA to temporal generation by leveraging static-camera videos, unifying spatial and temporal controllability. Experiments demonstrate that LiON-LoRA outperforms state-of-the-art methods in trajectory control accuracy and motion strength adjustment, achieving superior generalization with minimal training data. Project Page: https://fuchengsu.github.io/lionlora.github.io/
- Abstract(参考訳): ビデオ拡散モデル(VDM)は,大規模データから学習することで現実的な映像を合成する際,顕著な能力を示した。
バニラローランク適応(LoRA)は、制約されたデータで駆動するVDMへの特定の空間的または時間的移動を学習できるが、不安定な融合と非線形スケーラビリティのため、カメラ軌道と物体の動きの正確な制御は依然として困難である。
これらの問題に対処するために、線形スケーラビリティ、直交性、ノルム整合性という3つの基本原理を通じてLoRAの融合を再考する新しいフレームワークであるLion-LoRAを提案する。
まず、浅いVDM層におけるLoRA機能の直交性を解析し、低レベル制御の分離を可能にする。
第二に、複雑なカメラモーションの組み合わせの間、融合を安定させるために、レイヤ間で標準整合性が強制される。
第三に、制御可能なトークンを拡散変圧器(DiT)に一体化して、カメラとオブジェクトの両方の運動振幅を、デカップリング制御を確保するための修正自己保持機構で線形に調整する。
さらに、静的カメラビデオを活用することで、LON-LoRAを時間生成に拡張し、空間的および時間的制御性を統一する。
実験により、LiON-LoRAは軌道制御精度と運動強度調整において最先端の手法より優れ、最小限のトレーニングデータでより優れた一般化を実現していることが示された。
プロジェクトページ:https://fuchengsu.github.io/lionlora.github.io/
関連論文リスト
- One-Step Diffusion for Detail-Rich and Temporally Consistent Video Super-Resolution [9.03810927740921]
本稿では,効果的なSDベースのワンステップ拡散モデルをトレーニングするためのDual LoRA Learning(DLoRAL)パラダイムを提案する。
実験の結果,DLoRALは精度と速度の両方で高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2025-06-18T16:06:30Z) - DragLoRA: Online Optimization of LoRA Adapters for Drag-based Image Editing in Diffusion Model [14.144755955903634]
DragLoRAは、ドラッグベースの編集パイプラインにLoRAアダプタを統合する新しいフレームワークである。
DragLoRAはドラッグベース画像編集における制御精度と計算効率を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-05-18T13:52:19Z) - SuperFlow++: Enhanced Spatiotemporal Consistency for Cross-Modal Data Pretraining [62.433137130087445]
SuperFlow++は、連続するカメラペアを使用して事前トレーニングと下流タスクを統合する新しいフレームワークである。
SuperFlow++は様々なタスクや運転条件で最先端のメソッドよりも優れています。
強力な一般化性と計算効率により、SuperFlow++は、自動運転におけるデータ効率の高いLiDARベースの認識のための新しいベンチマークを確立する。
論文 参考訳(メタデータ) (2025-03-25T17:59:57Z) - LCM-LoRA: A Universal Stable-Diffusion Acceleration Module [52.8517132452467]
LCM(Latent Consistency Models)は、テキストから画像への生成タスクの高速化において、優れたパフォーマンスを実現している。
本報告はLRA蒸留を大型の安定拡散モデルに適用することによりLCMの可能性をさらに拡張する。
LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。
論文 参考訳(メタデータ) (2023-11-09T18:04:15Z) - Interactive Character Control with Auto-Regressive Motion Diffusion Models [18.727066177880708]
リアルタイム動作合成のためのA-MDM(Auto-Regressive Motion Diffusion Model)を提案する。
我々の条件拡散モデルは初期ポーズを入力とし、前者のフレームに条件付けられた連続した動きフレームを自動回帰的に生成する。
本稿では,タスク指向サンプリング,インペインティング,階層的強化学習など,対話型制御をA-MDMに組み込む一連の手法を紹介する。
論文 参考訳(メタデータ) (2023-06-01T07:48:34Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with
Transformers [49.689566246504356]
そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。
TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。
提案手法を3次元トラッキングタスクに拡張し,nuScenesトラッキングのリーダーボードにおける第1位を達成する。
論文 参考訳(メタデータ) (2022-03-22T07:15:13Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。