論文の概要: LibraGen: Playing a Balance Game in Subject-Driven Video Generation
- arxiv url: http://arxiv.org/abs/2603.13506v1
- Date: Fri, 13 Mar 2026 18:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.246959
- Title: LibraGen: Playing a Balance Game in Subject-Driven Video Generation
- Title(参考訳): LibraGen:主題駆動ビデオ生成におけるバランスゲーム
- Authors: Jiahao Zhu, Shanshan Lao, Lijie Liu, Gen Li, Tianhao Qi, Wei Han, Bingchuan Li, Fangfang Liu, Zhuowei Chen, Tianxiang Ma, Qian HE, Yi Zhou, Xiaohua Xie,
- Abstract要約: 本稿では,S2V生成の基盤モデルの拡張を,本質的なVGFM強度とS2V能力のバランスゲームとみなす新しいフレームワークを提案する。
自動と手動のデータフィルタリングを組み合わせたハイブリッドパイプラインを構築し、全体的なデータ品質を改善します。
実験結果から、LibraGenは、数千スケールのトレーニングデータのみを使用して、オープンソースと商用のS2Vモデルの両方より優れていることが示された。
- 参考スコア(独自算出の注目度): 49.4880360924921
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the advancement of video generation foundation models (VGFMs), customized generation, particularly subject-to-video (S2V), has attracted growing attention. However, a key challenge lies in balancing the intrinsic priors of a VGFM, such as motion coherence, visual aesthetics, and prompt alignment, with its newly derived S2V capability. Existing methods often neglect this balance by enhancing one aspect at the expense of others. To address this, we propose LibraGen, a novel framework that views extending foundation models for S2V generation as a balance game between intrinsic VGFM strengths and S2V capability. Specifically, guided by the core philosophy of "Raising the Fulcrum, Tuning to Balance," we identify data quality as the fulcrum and advocate a quality-over-quantity approach. We construct a hybrid pipeline that combines automated and manual data filtering to improve overall data quality. To further harmonize the VGFM's native capabilities with its S2V extension, we introduce a Tune-to-Balance post-training paradigm. During supervised fine-tuning, both cross-pair and in-pair data are incorporated, and model merging is employed to achieve an effective trade-off. Subsequently, two tailored direct preference optimization (DPO) pipelines, namely Consis-DPO and Real-Fake DPO, are designed and merged to consolidate this balance. During inference, we introduce a time-dependent dynamic classifier-free guidance scheme to enable flexible and fine-grained control. Experimental results demonstrate that LibraGen outperforms both open-source and commercial S2V models using only thousand-scale training data.
- Abstract(参考訳): ビデオ生成基盤モデル(VGFM)の進歩に伴い、カスタマイズされた世代、特に主観的ビデオ(S2V)が注目されている。
しかしながら、重要な課題は、動きコヒーレンス、視覚美学、即時アライメントなどのVGFMの本質的な先行と、新たに派生したS2V能力のバランスをとることである。
既存の方法は、ある側面を他の側面の犠牲にすることで、このバランスを無視することが多い。
そこで本研究では,S2V生成の基盤モデルを,本質的なVGFM強度とS2V能力のバランスゲームとみなす新しいフレームワークLibraGenを提案する。
具体的には、"Fulcrum, Tuning to Balance"という中核的な哲学に導かれ、データ品質をフルクラムとして認識し、品質オーバークオリティのアプローチを提唱します。
自動と手動のデータフィルタリングを組み合わせたハイブリッドパイプラインを構築し、全体的なデータ品質を改善します。
S2V拡張でVGFMのネイティブ機能をさらに調和させるため、Tune-to-Balanceポストトレーニングパラダイムを導入する。
教師付き微調整の間、クロスペアデータとインペアデータの両方が組み込まれ、効果的なトレードオフを達成するためにモデルマージが使用される。
その後、コンシスDPO(Consis-DPO)とリアルフェイクDPO(Real-Fake DPO)という2つの最適化された直接優先最適化パイプラインが設計され、このバランスを統合するために統合される。
推論中に、柔軟できめ細かい制御を可能にする時間依存型動的分類器フリーガイダンススキームを導入する。
実験結果から、LibraGenは、数千スケールのトレーニングデータのみを使用して、オープンソースと商用のS2Vモデルの両方より優れていることが示された。
関連論文リスト
- GFPL: Generative Federated Prototype Learning for Resource-Constrained and Data-Imbalanced Vision Task [43.723840781330914]
フェデレートラーニング(FL)は、分散イメージのセキュアな活用を容易にする。
FLは、非効率的な知識融合と禁止的な通信オーバーヘッドという、現実世界の展開において2つの重要な課題に直面している。
本稿では,これらの問題に対処する新しいジェネレーティブ・フェデレーション・プロトタイプ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-25T12:57:45Z) - DiffusionDriveV2: Reinforcement Learning-Constrained Truncated Diffusion Modeling in End-to-End Autonomous Driving [65.7087560656003]
エンドツーエンドの自動運転のための生成拡散モデルは、しばしばモード崩壊に悩まされる。
強化学習を利用して低品質モードを制約し,優れた軌道探索を行うDiffusionDriveV2を提案する。
これにより、そのコアであるガウス混合モデル固有の多重モード性を維持しながら、全体的な出力品質が大幅に向上する。
論文 参考訳(メタデータ) (2025-12-08T17:29:52Z) - Adaptive Divergence Regularized Policy Optimization for Fine-tuning Generative Models [31.470613363668672]
Adaptive Divergence Regularized Policy Optimization (Adaptive Divergence Regularized Policy Optimization) は、有利な推定値に基づいて正規化強度を自動的に調整する。
We implementation with Wasserstein-2 regularization for flow matching generative model is achieved great results on text-to-image generation。
ADRPOはテキストのみのLLMとマルチモーダル推論モデルの両方をKL規則化された微調整に一般化する。
論文 参考訳(メタデータ) (2025-10-20T19:46:02Z) - DanceGRPO: Unleashing GRPO on Visual Generation [42.567425922760144]
強化学習(Reinforcement Learning, RL)は, 微調整型生成モデルにおいて有望なアプローチである。
DDPOやDPOKのような既存の手法は、大規模で多様なプロンプトセットへのスケーリングにおいて基本的な制限に直面している。
本稿では,グループ相対政策最適化の革新的適応を通じて,これらの制約に対処するフレームワークであるDanceGRPOを提案する。
論文 参考訳(メタデータ) (2025-05-12T17:59:34Z) - NVComposer: Boosting Generative Novel View Synthesis with Multiple Sparse and Unposed Images [50.36605863731669]
NVComposerは、明示的な外部アライメントの必要性を排除する新しいアプローチである。
NVComposerは、生成的マルチビューNVSタスクにおいて最先端のパフォーマンスを達成する。
提案手法は, 入力ビュー数の増加に伴い, 合成品質が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-12-04T17:58:03Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [84.03286690283747]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - iiANET: Inception Inspired Attention Hybrid Network for efficient Long-Range Dependency [0.5497663232622965]
iANETは、長距離依存のモデリングを改善するために設計された、効率的なハイブリッド視覚バックボーンである。
iiANETの中核となる革新は、iiABlockである。これは、グローバルなr-MHSA(Multi-Head Self-Attention)とパリルルにおける畳み込みレイヤを内部で記述する、統一されたビルディングブロックである。
論文 参考訳(メタデータ) (2024-07-10T12:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。