論文の概要: Speedrunning ImageNet Diffusion
- arxiv url: http://arxiv.org/abs/2512.12386v1
- Date: Sat, 13 Dec 2025 16:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.24188
- Title: Speedrunning ImageNet Diffusion
- Title(参考訳): Speedrunning ImageNet Diffusion
- Authors: Swayam Bhanded,
- Abstract要約: SR-DiT(Speedrun Diffusion Transformer)は、トークンルーティング、アーキテクチャの改善、および表現アライメント上のトレーニング修正を統合するフレームワークである。
提案手法は,400K反復での140Mパラメータモデルのみを用いて,ImageNet-256上でFID 3.49とKDD 0.319を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances have significantly improved the training efficiency of diffusion transformers. However, these techniques have largely been studied in isolation, leaving unexplored the potential synergies from combining multiple approaches. We present SR-DiT (Speedrun Diffusion Transformer), a framework that systematically integrates token routing, architectural improvements, and training modifications on top of representation alignment. Our approach achieves FID 3.49 and KDD 0.319 on ImageNet-256 using only a 140M parameter model at 400K iterations without classifier-free guidance - comparable to results from 685M parameter models trained significantly longer. To our knowledge, this is a state-of the-art result at this model size. Through extensive ablation studies, we identify which technique combinations are most effective and document both synergies and incompatibilities. We release our framework as a computationally accessible baseline for future research.
- Abstract(参考訳): 近年の進歩は拡散変圧器の訓練効率を著しく向上させた。
しかし、これらの技術は独立して研究され、複数のアプローチを組み合わせることによる潜在的なシナジーを未解明のまま残している。
SR-DiT(Speedrun Diffusion Transformer)は、トークンルーティング、アーキテクチャの改善、および表現アライメント上のトレーニング修正を体系的に統合するフレームワークである。
提案手法は,画像Net-256におけるFID 3.49とKDD 0.319を,400K反復で140Mのパラメータモデルのみを用いて達成する。
私たちの知る限り、これはこのモデルサイズにおける最先端の結果です。
広範囲にわたるアブレーション研究を通じて、どの技法の組み合わせが最も効果的かを特定し、相乗効果と不整合性の両方を文書化する。
今後の研究のベースラインとして,我々のフレームワークをリリースする。
関連論文リスト
- E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources [12.244453688491731]
E-MMDiT(Efficient Multimodal Diffusion Transformer)は、高速画像合成のための304Mパラメータしか持たない、効率的で軽量なマルチモーダル拡散モデルである。
AMD MI300X GPUの1ノードで1.5日で2500万の公開データをトレーニングした512px生成のモデルは、GenEvalで0.66に達し、GRPOのようなポストトレーニング手法で簡単に0.72に達する。
論文 参考訳(メタデータ) (2025-10-31T03:13:08Z) - TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [25.744324109042385]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。
TREADは計算コストを削減し、同時にモデル性能を向上することを示す。
ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文 参考訳(メタデータ) (2025-01-08T18:38:25Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - LazyDiT: Lazy Learning for the Acceleration of Diffusion Transformers [79.07412045476872]
拡散変換器は、様々な生成タスクの優越的なモデルとして登場してきた。
各拡散段階におけるモデル全体の実行は不要であることを示し、いくつかの計算は以前のステップの結果を遅延的に再利用することでスキップできることを示した。
遅延学習フレームワークを提案する。このフレームワークは,初期ステップからキャッシュされた結果を効率よく活用し,冗長な計算を省略する。
論文 参考訳(メタデータ) (2024-12-17T01:12:35Z) - TinyFusion: Diffusion Transformers Learned Shallow [52.96232442322824]
拡散変換器は画像生成において顕著な機能を示すが、しばしば過度なパラメータ化を伴う。
本稿では,拡散変圧器の冗長層をエンド・ツー・エンド・ラーニングにより除去する深度切削法TinyFusionを提案する。
DiT-XLの実験では、TinyFusionはトレーニング前のコストの7%以下で浅い拡散変圧器を製造でき、FIDスコアが2.86で2$times$のスピードアップを達成した。
論文 参考訳(メタデータ) (2024-12-02T07:05:39Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。