論文の概要: PixNerd: Pixel Neural Field Diffusion
- arxiv url: http://arxiv.org/abs/2507.23268v1
- Date: Thu, 31 Jul 2025 06:07:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.125162
- Title: PixNerd: Pixel Neural Field Diffusion
- Title(参考訳): PixNerd: ピクセルニューラルフィールド拡散
- Authors: Shuai Wang, Ziteng Gao, Chenhui Zhu, Weilin Huang, Limin Wang,
- Abstract要約: 本稿では、ニューラルネットワークを用いてパッチワイズデコーディングをモデル化し、単一スケール、単一ステージ、効率的、エンドツーエンドのソリューションを提案する。
PixNerdの効率的なニューラルネットワーク表現のおかげで、ImageNetで2.15 FID、ImageNetで2.56times256$、2.84 FIDを、複雑なカスケードパイプラインやVAEなしで直接達成しました。
- 参考スコア(独自算出の注目度): 30.872185815524286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current success of diffusion transformers heavily depends on the compressed latent space shaped by the pre-trained variational autoencoder(VAE). However, this two-stage training paradigm inevitably introduces accumulated errors and decoding artifacts. To address the aforementioned problems, researchers return to pixel space at the cost of complicated cascade pipelines and increased token complexity. In contrast to their efforts, we propose to model the patch-wise decoding with neural field and present a single-scale, single-stage, efficient, end-to-end solution, coined as pixel neural field diffusion~(PixelNerd). Thanks to the efficient neural field representation in PixNerd, we directly achieved 2.15 FID on ImageNet $256\times256$ and 2.84 FID on ImageNet $512\times512$ without any complex cascade pipeline or VAE. We also extend our PixNerd framework to text-to-image applications. Our PixNerd-XXL/16 achieved a competitive 0.73 overall score on the GenEval benchmark and 80.9 overall score on the DPG benchmark.
- Abstract(参考訳): 拡散変圧器の現在の成功は、事前訓練された変分オートエンコーダ(VAE)によって形成される圧縮潜在空間に大きく依存している。
しかし、この2段階のトレーニングパラダイムは、必然的に蓄積されたエラーとデコードアーティファクトを導入します。
上記の問題に対処するため、研究者は複雑なカスケードパイプラインとトークンの複雑さを犠牲にしてピクセル空間に戻る。
これらの取り組みとは対照的に、我々は、パッチワイドデコーディングをニューラルネットワークでモデル化し、ピクセルニューラルフィールド拡散~(PixelNerd)と呼ばれる単一スケール、単一ステージ、効率的、エンドツーエンドのソリューションを提案する。
PixNerdの効率的なニューラルネットワーク表現のおかげで、ImageNetで2.15 FIDを、ImageNetで256\times256$と2.84 FIDを、複雑なカスケードパイプラインやVAEを使わずに、ImageNetで512\times512$を、直接達成しました。
また、PixNerdフレームワークをテキストから画像アプリケーションに拡張します。
我々のPixNerd-XXL/16は、GenEvalベンチマークで0.73点、DPGベンチマークで80.9点を達成しました。
関連論文リスト
- HNOSeg-XS: Extremely Small Hartley Neural Operator for Efficient and Resolution-Robust 3D Image Segmentation [3.990336239705776]
医用画像分割のための高分解能HNOSeg-XSアーキテクチャを提案する。
解像度が堅牢で、高速で、メモリ効率が良く、パラメータ効率も極めて高い。
BraTS'23、KiTS'23、MVSeg'23のデータセットでTesla V100 GPUでテストされた。
論文 参考訳(メタデータ) (2025-07-10T22:33:19Z) - FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution [33.07779971446476]
任意の解像度で高画質画像を効率よく生成できる、純粋に畳み込みに基づく生成モデルであるFlowDCNを提案する。
FlowDCNは256Times256$ ImageNet Benchmarkと同等の解像度外挿結果で最先端の4.30 sFIDを実現している。
FlowDCNはスケーラブルで柔軟な画像合成のための有望なソリューションであると考えています。
論文 参考訳(メタデータ) (2024-10-30T02:48:50Z) - Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。
彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。
我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T01:20:16Z) - A Cost-Efficient FPGA Implementation of Tiny Transformer Model using Neural ODE [0.8403582577557918]
Transformerは画像認識タスクに採用され、トレーニングコストと計算複雑性に悩まされているが、CNNやRNNよりも優れていた。
本稿では,ResNetの代わりにNeural ODEをバックボーンとして使用する軽量ハイブリッドモデルを提案する。
提案モデルは,エッジコンピューティングのための最小サイズのFPGAデバイス上に展開される。
論文 参考訳(メタデータ) (2024-01-05T09:32:39Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Reduce Information Loss in Transformers for Pluralistic Image Inpainting [112.50657646357494]
入力情報を可能な限り保持するための新しいトランスフォーマーベースのフレームワーク"PUT"を提案する。
PUTは、特に大きなマスキング領域と複雑な大規模データセットにおいて、画像の忠実性に関する最先端の手法を大幅に上回る。
論文 参考訳(メタデータ) (2022-05-10T17:59:58Z) - PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image
Generation [88.55256389703082]
Pixelは画像生成のための有望な研究パラダイムである。
本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。
Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
論文 参考訳(メタデータ) (2022-04-02T10:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。