論文の概要: Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
- arxiv url: http://arxiv.org/abs/2511.08704v1
- Date: Thu, 13 Nov 2025 01:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.20037
- Title: Rethinking generative image pretraining: How far are we from scaling up next-pixel prediction?
- Title(参考訳): 生成画像の事前学習を再考する: 次世代の予測はどこまでスケールできるのか?
- Authors: Xinchen Yan, Chen Liang, Lijun Yu, Adams Wei Yu, Yifeng Lu, Quoc V. Le,
- Abstract要約: IsoFlopsプロファイルを計算予算の最大7e19 FLOPでトレーニングする。
我々は,次の画素予測目標,イメージネット分類精度,フレッシュ距離による生成品質の3つの異なる目標値を評価する。
- 参考スコア(独自算出の注目度): 40.0315965809625
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: This paper investigates the scaling properties of autoregressive next-pixel prediction, a simple, end-to-end yet under-explored framework for unified vision models. Starting with images at resolutions of 32x32, we train a family of Transformers using IsoFlops profiles across compute budgets up to 7e19 FLOPs and evaluate three distinct target metrics: next-pixel prediction objective, ImageNet classification accuracy, and generation quality measured by Fr'echet Distance. First, optimal scaling strategy is critically task-dependent. At a fixed 32x32 resolution alone, the optimal scaling properties for image classification and image generation diverge, where generation optimal setup requires the data size grow three to five times faster than for the classification optimal setup. Second, as image resolution increases, the optimal scaling strategy indicates that the model size must grow much faster than data size. Surprisingly, by projecting our findings, we discover that the primary bottleneck is compute rather than the amount of training data. As compute continues to grow four to five times annually, we forecast the feasibility of pixel-by-pixel modeling of images within the next five years.
- Abstract(参考訳): 本稿では,自己回帰的次画素予測のスケーリング特性について検討する。
32×32の解像度の画像から始めて、計算予算の7e19 FLOPでIsoFlopsプロファイルを使用してトランスフォーマーのファミリーをトレーニングし、次のピクセル予測目標、画像ネット分類精度、Fr'echet Distanceで測定された生成品質の3つの異なる目標メトリクスを評価する。
まず、最適なスケーリング戦略はタスクに依存します。
画像分類と画像生成のための最適なスケーリング特性は、32×32の解像度だけで、生成の最適設定は、分類の最適設定の3倍から5倍の速度でデータサイズが成長する。
第二に、画像の解像度が大きくなるにつれて、最適なスケーリング戦略は、モデルのサイズがデータサイズよりもはるかに速く成長しなければならないことを示している。
驚くべきことに、我々の発見を投影することで、主なボトルネックはトレーニングデータの量ではなく計算であることがわかった。
計算量は年々4~5倍に増加し続けており、今後5年以内にピクセル・バイ・ピクセル・モデリングの可能性を予測する。
関連論文リスト
- Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design [84.34416126115732]
スケーリング法則は、最近、与えられた計算時間に最適なモデルサイズ(パラメータの数)を導出するために用いられる。
我々は、幅や深さなどの計算最適モデル形状を推測する手法を進化させ、改良し、視覚変換器でこれを実装した。
我々の形状最適化型視覚変換器SoViTは、同等の計算量で事前訓練されているにもかかわらず、サイズが2倍以上のモデルと競合する結果を得る。
論文 参考訳(メタデータ) (2023-05-22T13:39:28Z) - Robustifying Deep Vision Models Through Shape Sensitization [19.118696557797957]
そこで本研究では,ネットワークの全体像を学習するためのインセンティブを明示的に付与する,シンプルで軽量な対向拡張手法を提案する。
我々の拡張は、ランダムに決定された混合比を用いて、シャッフルパッチで、ある画像から別の画像へのエッジマップを重畳する。
この拡張により,データセットやニューラルアーキテクチャの分類精度とロバストネスが大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-11-14T11:17:46Z) - ITSELF: Iterative Saliency Estimation fLexible Framework [68.8204255655161]
機密度オブジェクト検出は、画像で最も顕著なオブジェクトを推定する。
我々は,ユーザ定義の仮定をモデルに追加できる,スーパーピクセルベースのITELF(ITSELF)を提案する。
ITSELFを5つのメトリクスと6つのデータセットで2つの最先端の精度推定器と比較する。
論文 参考訳(メタデータ) (2020-06-30T16:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。