論文の概要: Efficient Training for Human Video Generation with Entropy-Guided Prioritized Progressive Learning
- arxiv url: http://arxiv.org/abs/2511.21136v1
- Date: Wed, 26 Nov 2025 07:36:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.013386
- Title: Efficient Training for Human Video Generation with Entropy-Guided Prioritized Progressive Learning
- Title(参考訳): エントロピー誘導優先学習による映像生成の効率化
- Authors: Changlin Li, Jiawei Zhang, Shuhao Liu, Sihao Lin, Zeyi Shi, Zhihui Li, Xiaojun Chang,
- Abstract要約: Ent-Progは、人間のビデオ生成における拡散モデルに適した効率的なトレーニングフレームワークである。
モデルパフォーマンスを維持しながら、トレーニング時間とGPUメモリ使用量の両方を削減する。
- 参考スコア(独自算出の注目度): 52.25669274734097
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human video generation has advanced rapidly with the development of diffusion models, but the high computational cost and substantial memory consumption associated with training these models on high-resolution, multi-frame data pose significant challenges. In this paper, we propose Entropy-Guided Prioritized Progressive Learning (Ent-Prog), an efficient training framework tailored for diffusion models on human video generation. First, we introduce Conditional Entropy Inflation (CEI) to assess the importance of different model components on the target conditional generation task, enabling prioritized training of the most critical components. Second, we introduce an adaptive progressive schedule that adaptively increases computational complexity during training by measuring the convergence efficiency. Ent-Prog reduces both training time and GPU memory consumption while maintaining model performance. Extensive experiments across three datasets, demonstrate the effectiveness of Ent-Prog, achieving up to 2.2$\times$ training speedup and 2.4$\times$ GPU memory reduction without compromising generative performance.
- Abstract(参考訳): 人間のビデオ生成は拡散モデルの開発によって急速に進歩してきたが、高解像度のマルチフレームデータでこれらのモデルをトレーニングすることに伴う計算コストとメモリ消費が大きな課題となっている。
本稿では,人間の映像生成における拡散モデルに適した効率的な学習フレームワークであるエントロピー誘導優先プログレッシブラーニング(Ent-Prog)を提案する。
まず、条件付きエントロピーインフレーション(CEI)を導入し、ターゲット条件生成タスクにおける異なるモデルコンポーネントの重要性を評価し、最も重要なコンポーネントの優先的なトレーニングを可能にする。
第2に、収束効率を測定することにより、トレーニング中の計算複雑性を適応的に増大させる適応進行スケジュールを導入する。
Ent-Progは、モデルパフォーマンスを維持しながら、トレーニング時間とGPUメモリ消費の両方を削減する。
最大2.2$\times$トレーニングスピードアップと2.4$\times$GPUメモリ削減を実現し、生成性能を損なうことなく、Ent-Progの有効性を実証する。
関連論文リスト
- A Time-Series Data Augmentation Model through Diffusion and Transformer Integration [0.6437284704257459]
ディープニューラルネットワークは通常、トレーニングのために大量のデータを必要とする。
本稿では,Diffusion モデルと Transformer モデルを組み合わせた簡易かつ効率的な手法を提案する。
ベンチマークとして拡張データを適用したモデルの性能向上を利用して,高品質な拡張データを生成する能力を示す。
論文 参考訳(メタデータ) (2025-05-01T09:40:45Z) - A new pathway to generative artificial intelligence by minimizing the maximum entropy [0.0]
現在のモデルは、生成されたデータとトレーニングセットの間の距離を最小にすることで訓練される。
トレーニングセットに適合しないが、最も情報に富むもっともノイズの多いデータ表現を見つけるフレームワークを通じてパラダイムシフトを導入する。
結果は、データ効率が良く柔軟性があり、生成プロセスの制御と影響を許容する一般的な物理駆動モデルである。
論文 参考訳(メタデータ) (2025-02-18T21:16:33Z) - VIRL: Volume-Informed Representation Learning towards Few-shot Manufacturability Estimation [0.0]
本研究は,3次元幾何エンコーダの事前学習のためのボリュームインフォームド表現学習手法であるVIRLを紹介する。
VIRLによって事前訓練されたモデルでは,データ制限による一般化性の向上が大幅に向上した。
論文 参考訳(メタデータ) (2024-06-18T05:30:26Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Fast-ELECTRA for Efficient Pre-training [83.29484808667532]
ELECTRAは補助モデルに置き換えられたシーケンス内のトークンを検出して、言語モデルを事前訓練する。
本稿では,既存の言語モデルを補助モデルとして活用したFast-ELECTRAを提案する。
提案手法は,最先端のELECTRA型事前学習手法の性能に匹敵するが,補助モデルの連成学習による計算とメモリコストは著しく削減される。
論文 参考訳(メタデータ) (2023-10-11T09:55:46Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z) - Investigating Tradeoffs in Real-World Video Super-Resolution [90.81396836308085]
実世界のビデオ超解像(VSR)モデルは、一般化性を改善するために様々な劣化で訓練されることが多い。
最初のトレードオフを軽減するために,性能を犠牲にすることなく,最大40%のトレーニング時間を削減できる劣化手法を提案する。
そこで本研究では,多種多様な実世界の低品質映像系列を含むビデオLQデータセットを提案する。
論文 参考訳(メタデータ) (2021-11-24T18:58:21Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。