論文の概要: V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.03254v1
- Date: Tue, 05 Aug 2025 09:31:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.888156
- Title: V.I.P. : Iterative Online Preference Distillation for Efficient Video Diffusion Models
- Title(参考訳): V.I.P. : 効率的なビデオ拡散モデルのための反復的オンライン選好蒸留
- Authors: Jisoo Kim, Wooseok Seo, Junwan Kim, Seungho Park, Sooyeon Park, Youngjae Yu,
- Abstract要約: 本稿では, DPO と SFT を統合した有効蒸留法 ReDPO を提案する。
提案手法はDPOを利用して,教師を受動的に模倣するのではなく,対象物のみを回収することに集中するよう学生モデルに誘導する。
さらに、高品質なペアデータセットのフィルタリングとキュレーションのための新しいフレームワークであるV.I.P.と、校正トレーニングのためのステップバイステップオンラインアプローチを提案する。
- 参考スコア(独自算出の注目度): 14.301804388786469
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With growing interest in deploying text-to-video (T2V) models in resource-constrained environments, reducing their high computational cost has become crucial, leading to extensive research on pruning and knowledge distillation methods while maintaining performance. However, existing distillation methods primarily rely on supervised fine-tuning (SFT), which often leads to mode collapse as pruned models with reduced capacity fail to directly match the teacher's outputs, ultimately resulting in degraded quality. To address this challenge, we propose an effective distillation method, ReDPO, that integrates DPO and SFT. Our approach leverages DPO to guide the student model to focus on recovering only the targeted properties, rather than passively imitating the teacher, while also utilizing SFT to enhance overall performance. We additionally propose V.I.P., a novel framework for filtering and curating high-quality pair datasets, along with a step-by-step online approach for calibrated training. We validate our method on two leading T2V models, VideoCrafter2 and AnimateDiff, achieving parameter reduction of 36.2% and 67.5% each, while maintaining or even surpassing the performance of full models. Further experiments demonstrate the effectiveness of both ReDPO and V.I.P. framework in enabling efficient and high-quality video generation. Our code and videos are available at https://jiiiisoo.github.io/VIP.github.io/.
- Abstract(参考訳): 資源制約のある環境でのテキスト・ツー・ビデオ(T2V)モデルの展開への関心が高まり、その高い計算コストの削減が重要となり、性能を維持しつつプルーニングと知識蒸留の方法に関する広範な研究に繋がった。
しかし、既存の蒸留法は主に教師付き微調整(SFT)に依存しており、生産能力の低下が教師の出力と直接一致しないため、しばしばモード崩壊を引き起こす。
そこで本研究では, DPO と SFT を統合した有効蒸留法 ReDPO を提案する。
提案手法はDPOを活用して,教師を受動的に模倣するのではなく,対象物のみを回収することに集中すると同時に,総合的なパフォーマンス向上にSFTを活用する。
さらに、高品質なペアデータセットのフィルタリングとキュレーションのための新しいフレームワークであるV.I.P.と、校正トレーニングのためのステップバイステップオンラインアプローチを提案する。
我々は,本手法をVideoCrafter2とAnimateDiffの2つの主要なT2Vモデルに対して検証し,パラメータの36.2%と67.5%をそれぞれ達成し,フルモデルの性能を維持あるいは超過した。
さらに、ReDPOとV.I.P.の両方のフレームワークが、効率的かつ高品質のビデオ生成に有効であることを示す。
私たちのコードとビデオはhttps://jiiiisoo.github.io/VIP.github.io/で公開されています。
関連論文リスト
- FEDS: Feature and Entropy-Based Distillation Strategy for Efficient Learned Image Compression [12.280695635625737]
学習画像圧縮(lic)法は、最近、速度歪み性能においてVVCなどの従来のコーデックよりも優れている。
本稿では,まず,Swin-Transformer V2ベースのアテンションモジュールを統合することで,高容量教師モデルを構築する。
次に、教師から軽量の学生モデルに重要な知識を伝達するアンダーラインFeatureとアンダーラインEntropyベースのアンダーラインDistillation underlineStrategy(textbfFEDS)を提案する。
論文 参考訳(メタデータ) (2025-03-09T02:39:39Z) - OnlineVPO: Align Video Diffusion Model with Online Video-Centric Preference Optimization [30.6130504613716]
本稿では,ビデオ拡散モデルに特化した嗜好学習手法であるOnlineVPOを紹介する。
OnlineVPOは、ビデオ報酬モデルを使用して、簡潔なビデオフィードバックをオンザフライで提供することにより、効率的かつ効率的な選好ガイダンスを提供する。
論文 参考訳(メタデータ) (2024-12-19T18:34:50Z) - From Slow Bidirectional to Fast Autoregressive Video Diffusion Models [52.32078428442281]
現在のビデオ拡散モデルは、印象的な生成品質を実現するが、双方向の注意依存のため、インタラクティブなアプリケーションに苦戦する。
この制限には、事前訓練された双方向拡散変換器を自己回帰変換器に適応させ、フレームをオンザフライで生成することで対処する。
我々のモデルは、VBench-Longベンチマークで84.27点のスコアを達成し、以前のすべてのビデオ生成モデルを上回った。
論文 参考訳(メタデータ) (2024-12-10T18:59:50Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - Unleashing the Power of One-Step Diffusion based Image Super-Resolution via a Large-Scale Diffusion Discriminator [81.81748032199813]
拡散モデルは実世界の超解像(Real-ISR)に優れた性能を示した
SRのための大規模textbfDiscriminator を用いた One-Step textbfDiffusion モデルを提案する。
我々の判別器は、潜伏空間における拡散モデルの任意の時間ステップからノイズのある特徴を抽出することができる。
論文 参考訳(メタデータ) (2024-10-05T16:41:36Z) - MiniVLN: Efficient Vision-and-Language Navigation by Progressive Knowledge Distillation [17.27883003990266]
VLN(Vision-and-Language Navigation)は、Embodied AIのコアタスクである。
本稿では,2段階の知識蒸留フレームワークを導入し,学生モデルMiniVLNについて述べる。
その結果,2段階蒸留法は,教師モデルと学生モデルのパフォーマンスギャップを狭めるのに有効であることが示唆された。
論文 参考訳(メタデータ) (2024-09-27T14:54:54Z) - OSV: One Step is Enough for High-Quality Image to Video Generation [44.09826880566572]
一貫性蒸留とGANトレーニングを効果的に組み合わせた2段階トレーニングフレームワークを提案する。
また,ビデオラテントを復号化する必要のない新しいビデオ識別器の設計を提案する。
本モデルでは,高画質映像を1ステップで生成可能であり,多段精細化の柔軟性が期待できる。
論文 参考訳(メタデータ) (2024-09-17T17:16:37Z) - Unsupervised Domain Adaption Harnessing Vision-Language Pre-training [4.327763441385371]
本稿では、教師なしドメイン適応(UDA)におけるビジョンランゲージ事前学習モデルのパワーを活用することに焦点を当てる。
クロスモーダル知識蒸留(CMKD)と呼ばれる新しい手法を提案する。
提案手法は,従来のベンチマーク手法よりも優れている。
論文 参考訳(メタデータ) (2024-08-05T02:37:59Z) - One-Step Diffusion Distillation via Deep Equilibrium Models [64.11782639697883]
本稿では,拡散モデルを初期雑音から得られた画像に直接蒸留する簡易かつ効果的な方法を提案する。
本手法は,拡散モデルからノイズ/イメージペアのみによる完全オフライントレーニングを可能にする。
GET は FID スコアの点で 5 倍の ViT と一致するので,DEC アーキテクチャがこの能力に不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-12T07:28:40Z) - Parameter and Computation Efficient Transfer Learning for
Vision-Language Pre-trained Models [79.34513906324727]
本稿では,視覚言語事前学習モデルのためのパラメータと効率的な伝達学習(PCETL)を提案する。
そこで本研究では,新しい動的アーキテクチャスキップ(DAS)アプローチを効果的PCETLに適用する。
論文 参考訳(メタデータ) (2023-09-04T09:34:33Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。