論文の概要: Nucleus-Image: Sparse MoE for Image Generation
- arxiv url: http://arxiv.org/abs/2604.12163v1
- Date: Tue, 14 Apr 2026 00:43:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.174804
- Title: Nucleus-Image: Sparse MoE for Image Generation
- Title(参考訳): Nucleus-Image: 画像生成のためのスパースMOE
- Authors: Chandan Akiti, Ajay Modukuri, Murali Nandan Nagarapu, Gunavardhan Akiti, Haozhe Liu,
- Abstract要約: 我々はGenEval, DPG-Bench, OneIG-Benchの先頭モデルを超えるテキスト・画像生成モデルを提案する。
Nucleus-Imageはスパース・ミックス・オブ・エキスパート(MoE)拡散変圧器アーキテクチャを採用している。
我々は,700万枚の画像にまたがる1.5Bの高品質トレーニングペアからなる大規模トレーニングコーパスを構築した。
- 参考スコア(独自算出の注目度): 5.769753912757775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Nucleus-Image, a text-to-image generation model that establishes a new Pareto frontier in quality-versus-efficiency by matching or exceeding leading models on GenEval, DPG-Bench, and OneIG-Bench while activating only approximately 2B parameters per forward pass. Nucleus-Image employs a sparse mixture-of-experts (MoE) diffusion transformer architecture with Expert-Choice Routing that scales total model capacity to 17B parameters across 64 routed experts per layer. We adopt a streamlined architecture optimized for inference efficiency by excluding text tokens from the transformer backbone entirely and using joint attention that enables text KV sharing across timesteps. To improve routing stability when using timestep modulation, we introduce a decoupled routing design that separates timestep-aware expert assignment from timestep-conditioned expert computation. We construct a large-scale training corpus of 1.5B high-quality training pairs spanning 700M unique images through multi-stage filtering, deduplication, aesthetic tiering, and caption curation. Training follows a progressive resolution curriculum (256 to 512 to 1024) with multi-aspect-ratio bucketing at every stage, coupled with progressive sparsification of the expert capacity factor. We adopt the Muon optimizer and share our parameter grouping recipe tailored for diffusion models with timestep modulation. Nucleus-Image demonstrates that sparse MoE scaling is a highly effective path to high-quality image generation, reaching the performance of models with significantly larger active parameter budgets at a fraction of the inference cost. These results are achieved without post-training optimization of any kind: no reinforcement learning, no direct preference optimization, and no human preference tuning. We release the training recipe, making Nucleus-Image the first fully open-source MoE diffusion model at this quality.
- Abstract(参考訳): 我々は,GenEval, DPG-Bench, OneIG-Bench の先行モデルに適合または超過することで, 品質逆効果の新たなパレートフロンティアを確立するテキスト・画像生成モデルである Nucleus-Image を提案する。
Nucleus-Imageでは、Sparse Mixed-of-Experts(MoE)拡散トランスフォーマーアーキテクチャとExpert-Choice Routingを使用して、モデル全体のキャパシティを1層あたり64のルーティングされたエキスパートに対して17Bパラメータに拡張する。
我々は、トランスのバックボーンからテキストトークンを完全に排除し、タイムステップ間でテキストKVを共有可能にすることで、推論効率に最適化された合理化アーキテクチャを採用する。
時間ステップ変調を用いた場合のルーティング安定性を改善するために,時間ステップ対応の専門家割当と時間ステップ対応の専門家割当を分離する分離されたルーティング設計を導入する。
我々は,多段フィルタリング,復号化,審美的階層化,キャプションキュレーションを通じて,700万のユニークな画像にまたがる1.5Bの高品質トレーニングペアからなる大規模トレーニングコーパスを構築した。
訓練は、プログレッシブ・レゾリューション・カリキュラム(256から512から1024)に従っており、各段階で複数のアスペクト比バケットと専門家のキャパシティー・ファクターのプログレッシブ・スパシフィケーションを兼ね備えている。
我々は、Muonオプティマイザを採用し、時間ステップ変調による拡散モデルに適したパラメータグループ化レシピを共有する。
Nucleus-Imageは、スパースMoEスケーリングが高品質な画像生成への極めて効果的なパスであり、推論コストのごく一部で非常に大きなアクティブパラメータ予算を持つモデルの性能に達することを示した。
これらの結果は、強化学習なし、直接選好最適化なし、人間の選好チューニングなしなど、あらゆる種類の訓練後の最適化なしに達成される。
我々はトレーニングレシピをリリースし、Nucleus-Imageをこの品質で最初のオープンソースMoE拡散モデルにしました。
関連論文リスト
- DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。
わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。
トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文 参考訳(メタデータ) (2026-02-12T17:44:24Z) - Home-made Diffusion Model from Scratch to Hatch [0.9383683724544296]
ホームメイド拡散モデル(Home-made Diffusion Model, HDM)は、消費者向けハードウェアのトレーニングに最適化された、効率的かつ強力なテキスト-画像拡散モデルである。
HDMは競争力のある1024x1024世代の品質を実現し、トレーニングコストは535-620ドルと極めて低い。
論文 参考訳(メタデータ) (2025-09-07T14:21:57Z) - Policy Optimized Text-to-Image Pipeline Design [73.9633527029941]
本稿では,テキスト・ツー・イメージ生成のための新しい強化学習フレームワークを提案する。
提案手法は、まず、画像品質のスコアをインタプリタ-ワークフローの組み合わせから直接予測できる報奨モデルのアンサンブルを訓練する。
次に、最初の語彙学習とGRPOに基づく最適化という2段階のトレーニング戦略を実装した。
論文 参考訳(メタデータ) (2025-05-27T17:50:47Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z) - Dual-former: Hybrid Self-attention Transformer for Efficient Image
Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。
実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。
単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文 参考訳(メタデータ) (2022-10-03T16:39:21Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。