論文の概要: DiP: Taming Diffusion Models in Pixel Space
- arxiv url: http://arxiv.org/abs/2511.18822v2
- Date: Thu, 27 Nov 2025 09:29:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 13:46:31.774785
- Title: DiP: Taming Diffusion Models in Pixel Space
- Title(参考訳): DiP: ピクセル空間における拡散モデルのモデリング
- Authors: Zhennan Chen, Junwei Zhu, Xu Chen, Jiangning Zhang, Xiaobin Hu, Hanzhen Zhao, Chengjie Wang, Jian Yang, Ying Tai,
- Abstract要約: Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作する。
共同トレーニングされた軽量パッチディーラーヘッドは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
- 参考スコア(独自算出の注目度): 91.51011771517683
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models face a fundamental trade-off between generation quality and computational efficiency. Latent Diffusion Models (LDMs) offer an efficient solution but suffer from potential information loss and non-end-to-end training. In contrast, existing pixel space models bypass VAEs but are computationally prohibitive for high-resolution synthesis. To resolve this dilemma, we propose DiP, an efficient pixel space diffusion framework. DiP decouples generation into a global and a local stage: a Diffusion Transformer (DiT) backbone operates on large patches for efficient global structure construction, while a co-trained lightweight Patch Detailer Head leverages contextual features to restore fine-grained local details. This synergistic design achieves computational efficiency comparable to LDMs without relying on a VAE. DiP is accomplished with up to 10$\times$ faster inference speeds than previous method while increasing the total number of parameters by only 0.3%, and achieves an 1.79 FID score on ImageNet 256$\times$256.
- Abstract(参考訳): 拡散モデルは、生成品質と計算効率の根本的なトレードオフに直面している。
遅延拡散モデル(LDM)は効率的なソリューションを提供するが、潜在的な情報損失とエンドツーエンドのトレーニングに悩まされる。
対照的に、既存のピクセル空間モデルはVAEをバイパスするが、高分解能合成には計算的に禁じられている。
このジレンマを解決するために,効率的なピクセル空間拡散フレームワークであるDiPを提案する。
Diffusion Transformer (DiT) バックボーンは、効率的なグローバル構造構築のために大きなパッチで動作し、同時にトレーニングされた軽量のPatch Detailer Headは、コンテキスト機能を活用して、きめ細かいローカル詳細を復元する。
この相乗的設計は、VAEに頼ることなく LDM に匹敵する計算効率を達成する。
DiPは従来の手法よりも最大10$\times$高速な推論速度で達成され、パラメータの総数はわずか0.3%増加し、ImageNet 256$\times$256で1.79 FIDスコアを得る。
関連論文リスト
- E-MMDiT: Revisiting Multimodal Diffusion Transformer Design for Fast Image Synthesis under Limited Resources [12.244453688491731]
E-MMDiT(Efficient Multimodal Diffusion Transformer)は、高速画像合成のための304Mパラメータしか持たない、効率的で軽量なマルチモーダル拡散モデルである。
AMD MI300X GPUの1ノードで1.5日で2500万の公開データをトレーニングした512px生成のモデルは、GenEvalで0.66に達し、GRPOのようなポストトレーニング手法で簡単に0.72に達する。
論文 参考訳(メタデータ) (2025-10-31T03:13:08Z) - ScaleDiff: Higher-Resolution Image Synthesis via Efficient and Model-Agnostic Diffusion [7.233066974580282]
テキストと画像の拡散モデルは、トレーニングの解像度を超える画像を生成する際に、しばしば劣化した性能を示す。
最近のトレーニングフリーな手法は、この制限を緩和することができるが、かなりの計算を必要とする場合や、最近の拡散変換器モデルと互換性がない場合が多い。
本研究では,事前学習した拡散モデルの解法を,追加の訓練なしに拡張するためのモデル非依存かつ高効率なフレームワークであるScaleDiffを提案する。
論文 参考訳(メタデータ) (2025-10-29T17:17:32Z) - Exploring Diffusion with Test-Time Training on Efficient Image Restoration [1.3830502387127932]
DiffRWKVIRは、効率的な拡散を伴うテスト時間トレーニング(TTT)を統合する新しいフレームワークである。
本手法は,ハードウェアの最適化による適応的,高効率な画像復元のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-06-17T14:01:59Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - ToddlerDiffusion: Interactive Structured Image Generation with Cascaded Schrödinger Bridge [63.00793292863]
ToddlerDiffusionは、RGB画像生成の複雑なタスクを、よりシンプルで解釈可能なステージに分解するための新しいアプローチである。
提案手法はToddler Diffusionと呼ばれ,それぞれが中間表現を生成する責務を担っている。
ToddlerDiffusionは、常に最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2023-11-24T15:20:01Z) - Efficient Context Integration through Factorized Pyramidal Learning for
Ultra-Lightweight Semantic Segmentation [1.0499611180329804]
本稿では,FPL(Facterized Pyramidal Learning)モジュールを提案する。
空間ピラミッドを2つのステージに分解し,モジュール内での簡易かつ効率的な特徴融合により,悪名高いチェッカーボード効果を解決する。
FPLモジュールとFIRユニットをベースとしたFPLNetと呼ばれる超軽量リアルタイムネットワークを提案する。
論文 参考訳(メタデータ) (2023-02-23T05:34:51Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。