論文の概要: Scaling Laws For Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2410.08184v1
- Date: Thu, 10 Oct 2024 17:56:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 04:55:58.906281
- Title: Scaling Laws For Diffusion Transformers
- Title(参考訳): 拡散変換器のスケーリング法則
- Authors: Zhengyang Liang, Hao He, Ceyuan Yang, Bo Dai,
- Abstract要約: 拡散トランス (DiT) は, コンテンツレクリエーションにおいて魅力的な合成とスケーリング特性を達成している。
DiTのスケーリング法則は調査されていないため、通常は最適なモデルサイズとデータ要求に関する正確な予測を提供する。
1e17から6e18 FLOP までの幅広い計算予算の実験を行い、DiT におけるスケーリング法則の存在を確認する。
- 参考スコア(独自算出の注目度): 27.180452052901146
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diffusion transformers (DiT) have already achieved appealing synthesis and scaling properties in content recreation, e.g., image and video generation. However, scaling laws of DiT are less explored, which usually offer precise predictions regarding optimal model size and data requirements given a specific compute budget. Therefore, experiments across a broad range of compute budgets, from 1e17 to 6e18 FLOPs are conducted to confirm the existence of scaling laws in DiT for the first time. Concretely, the loss of pretraining DiT also follows a power-law relationship with the involved compute. Based on the scaling law, we can not only determine the optimal model size and required data but also accurately predict the text-to-image generation loss given a model with 1B parameters and a compute budget of 1e21 FLOPs. Additionally, we also demonstrate that the trend of pre-training loss matches the generation performances (e.g., FID), even across various datasets, which complements the mapping from compute to synthesis quality and thus provides a predictable benchmark that assesses model performance and data quality at a reduced cost.
- Abstract(参考訳): 拡散変換器 (DiT) は, コンテンツレクリエーション, 画像, ビデオ生成において, 魅力的な合成とスケーリング特性をすでに達成している。
しかし、DiTのスケーリング法則は検討されていないため、通常、特定の計算予算が与えられた場合、最適なモデルサイズとデータ要求に関する正確な予測を提供する。
したがって、1e17から6e18のFLOPを含む幅広い計算予算にわたる実験を行い、初めてDiTにおけるスケーリング法則の存在を確認する。
具体的には、事前訓練されたDiTの損失は、関連する計算との関係にも従う。
スケーリング法則に基づき、1Bパラメータと1e21 FLOPの計算予算が与えられたモデルから、最適なモデルサイズと必要なデータを決定するだけでなく、テキストから画像への生成損失を正確に予測できる。
さらに、事前学習損失の傾向は、計算から合成品質へのマッピングを補完する様々なデータセットでさえも生成性能(例えば、FID)と一致していることを示し、モデルの性能とデータ品質を低コストで評価する予測可能なベンチマークを提供する。
関連論文リスト
- Towards Precise Scaling Laws for Video Diffusion Transformers [43.6690970187664]
ビデオ拡散変換器のスケーリング法則を解析し,任意のモデルサイズと計算予算に対して新しいスケーリング法則を提案する。
これらの最適設定の下では、従来のスケーリング手法と比較して、同等のパフォーマンスを実現し、推論コストを40.1%削減する。
論文 参考訳(メタデータ) (2024-11-25T18:59:04Z) - More Compute Is What You Need [3.184416958830696]
モデル性能はトランスフォーマーモデルに費やされる計算量に大きく依存することを示す新しいスケーリング法則を提案する。
a)推論効率、トレーニングは、より小さなモデルサイズとより大きなトレーニングデータセットを優先すべきであり、(b)利用可能なWebデータセットの枯渇を前提として、モデルサイズをスケールすることが、モデルパフォーマンスをさらに改善するための唯一の方法である、と予測する。
論文 参考訳(メタデータ) (2024-04-30T12:05:48Z) - Unraveling the Mystery of Scaling Laws: Part I [39.967120253159614]
法則のスケーリングは、モデルサイズ、データセットサイズ、トレーニングで使用される計算リソースなどの損失と変数の間のパワー-ルールの相関を示す。
OpenAIのオリジナルのスケーリング法論文は、正確なスケーリング法則を導出するのに必要な詳細を公表していない。
1M60Mのパラメータしか持たないモデルでトレーニングすることで、スケーリング法則式における全ての定数項をステップバイステップで推定する。
論文 参考訳(メタデータ) (2024-03-11T10:05:29Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - Adaptive Model Pruning and Personalization for Federated Learning over
Wireless Networks [72.59891661768177]
フェデレーション学習(FL)は、データプライバシを保護しながら、エッジデバイス間での分散学習を可能にする。
これらの課題を克服するために、部分的なモデルプルーニングとパーソナライズを備えたFLフレームワークを検討する。
このフレームワークは、学習モデルを、データ表現を学ぶためにすべてのデバイスと共有されるモデルプルーニングと、特定のデバイスのために微調整されるパーソナライズされた部分とで、グローバルな部分に分割する。
論文 参考訳(メタデータ) (2023-09-04T21:10:45Z) - Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - A Meta-Learning Approach to Predicting Performance and Data Requirements [163.4412093478316]
本稿では,モデルが目標性能に達するために必要なサンプル数を推定する手法を提案する。
モデル性能を推定するデファクト原理であるパワー法則が,小さなデータセットを使用する場合の誤差が大きいことが判明した。
本稿では,2つのデータを異なる方法で処理するPPL法について紹介する。
論文 参考訳(メタデータ) (2023-03-02T21:48:22Z) - A Solvable Model of Neural Scaling Laws [72.8349503901712]
大量のパラメータを持つ大規模な言語モデルは、インターネットに近い数のトークンで訓練されると、ニューラルネットワークのスケーリング法則に従うことが実証的に示されている。
我々は,このニューラルスケーリング現象を捉える統計モデル(共同生成データモデルとランダム特徴モデル)を提案する。
主な発見は、自然データセットの統計に現れる電力法則が非線形ランダムな特徴写像によって拡張される方法である。
論文 参考訳(メタデータ) (2022-10-30T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。