論文の概要: Towards Precise Scaling Laws for Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2411.17470v2
- Date: Tue, 31 Dec 2024 16:25:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-03 14:35:32.741803
- Title: Towards Precise Scaling Laws for Video Diffusion Transformers
- Title(参考訳): ビデオ拡散変換器の精密スケーリング法則に向けて
- Authors: Yuanyang Yin, Yaqi Zhao, Mingwu Zheng, Ke Lin, Jiarong Ou, Rui Chen, Victor Shea-Jay Huang, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang, Kun Gai,
- Abstract要約: ビデオ拡散変換器のスケーリング法則を解析し,任意のモデルサイズと計算予算に対して新しいスケーリング法則を提案する。
これらの最適設定の下では、従来のスケーリング手法と比較して、同等のパフォーマンスを実現し、推論コストを40.1%削減する。
- 参考スコア(独自算出の注目度): 43.6690970187664
- License:
- Abstract: Achieving optimal performance of video diffusion transformers within given data and compute budget is crucial due to their high training costs. This necessitates precisely determining the optimal model size and training hyperparameters before large-scale training. While scaling laws are employed in language models to predict performance, their existence and accurate derivation in visual generation models remain underexplored. In this paper, we systematically analyze scaling laws for video diffusion transformers and confirm their presence. Moreover, we discover that, unlike language models, video diffusion models are more sensitive to learning rate and batch size, two hyperparameters often not precisely modeled. To address this, we propose a new scaling law that predicts optimal hyperparameters for any model size and compute budget. Under these optimal settings, we achieve comparable performance and reduce inference costs by 40.1% compared to conventional scaling methods, within a compute budget of 1e10 TFlops. Furthermore, we establish a more generalized and precise relationship among validation loss, any model size, and compute budget. This enables performance prediction for non-optimal model sizes, which may also be appealed under practical inference cost constraints, achieving a better trade-off.
- Abstract(参考訳): 所定のデータと計算予算内での動画拡散変換器の最適性能を達成することは、その訓練コストが高いために重要である。
これは、大規模トレーニングの前に最適なモデルサイズを正確に決定し、ハイパーパラメータをトレーニングする必要がある。
スケーリング法則は、性能を予測するために言語モデルに採用されているが、視覚生成モデルにおけるそれらの存在と正確な導出は、まだ解明されていない。
本稿では,ビデオ拡散変換器のスケーリング法則を体系的に解析し,その存在を確かめる。
さらに、言語モデルとは異なり、ビデオ拡散モデルは学習率やバッチサイズに敏感であり、2つのハイパーパラメータは正確にはモデル化されないことが判明した。
そこで本研究では,任意のモデルサイズと計算予算に対して最適なハイパーパラメータを予測できる新しいスケーリング法則を提案する。
これらの最適設定の下では、計算予算1e10 TFlopsにおいて、従来のスケーリング手法と比較して、同等のパフォーマンスを実現し、推論コストを40.1%削減する。
さらに、検証損失、任意のモデルサイズ、計算予算の間により一般化された正確な関係を確立する。
これにより、非最適モデルサイズのパフォーマンス予測が可能となり、実用的な推論コスト制約の下でもアピールされ、よりよいトレードオフを達成することができる。
関連論文リスト
- Scaling Laws For Diffusion Transformers [27.180452052901146]
拡散トランス (DiT) は, コンテンツレクリエーションにおいて魅力的な合成とスケーリング特性を達成している。
DiTのスケーリング法則は調査されていないため、通常は最適なモデルサイズとデータ要求に関する正確な予測を提供する。
1e17から6e18 FLOP までの幅広い計算予算の実験を行い、DiT におけるスケーリング法則の存在を確認する。
論文 参考訳(メタデータ) (2024-10-10T17:56:03Z) - Optimization Hyper-parameter Laws for Large Language Models [56.322914260197734]
ハイパーパラメータとトレーニング結果の関係をキャプチャするフレームワークであるOps-Lawsを提案する。
さまざまなモデルサイズとデータスケールにわたる検証は、Opt-Lawsのトレーニング損失を正確に予測する能力を示しています。
このアプローチは、全体的なモデル性能を高めながら、計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-09-07T09:37:19Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Scaling Laws for Fine-Grained Mixture of Experts [4.412803924115907]
ミキチャー・オブ・エキスパート(MoE)モデルは、大規模言語モデルの計算コストを削減するための主要なソリューションとして登場した。
本研究では,拡張変数を組み込んだスケーリング特性の解析を行う。
トレーニングトークンの数、モデルサイズ、粒度を考慮して、粒度の細かいMoEのスケーリング法則を確立します。
論文 参考訳(メタデータ) (2024-02-12T18:33:47Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z) - Scaling Laws for Acoustic Models [7.906034575114518]
近年の研究では、クロスエントロピー目的関数を持つ自己回帰生成モデルがスムーズなパワー-ロー関係を示すことが示されている。
自動予測符号損失で訓練された音響モデルは、まるで同様のスケーリング法則に従うかのように振る舞うことを示す。
論文 参考訳(メタデータ) (2021-06-11T18:59:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。