論文の概要: PixelFlow: Pixel-Space Generative Models with Flow
- arxiv url: http://arxiv.org/abs/2504.07963v1
- Date: Thu, 10 Apr 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:20:32.714242
- Title: PixelFlow: Pixel-Space Generative Models with Flow
- Title(参考訳): PixelFlow: フローを備えたPixel空間生成モデル
- Authors: Shoufa Chen, Chongjian Ge, Shilong Zhang, Peize Sun, Ping Luo,
- Abstract要約: 我々は、生のピクセル空間で直接動作する画像生成モデルのファミリーであるPixelFlowを紹介する。
このアプローチは、事前訓練された変分オートエンコーダを不要にすることで、画像生成プロセスを単純化する。
この新たなパラダイムが、次世代のビジュアル生成モデルに新たな機会を与え、開放することを期待しています。
- 参考スコア(独自算出の注目度): 38.95544848294774
- License:
- Abstract: We present PixelFlow, a family of image generation models that operate directly in the raw pixel space, in contrast to the predominant latent-space models. This approach simplifies the image generation process by eliminating the need for a pre-trained Variational Autoencoder (VAE) and enabling the whole model end-to-end trainable. Through efficient cascade flow modeling, PixelFlow achieves affordable computation cost in pixel space. It achieves an FID of 1.98 on 256$\times$256 ImageNet class-conditional image generation benchmark. The qualitative text-to-image results demonstrate that PixelFlow excels in image quality, artistry, and semantic control. We hope this new paradigm will inspire and open up new opportunities for next-generation visual generation models. Code and models are available at https://github.com/ShoufaChen/PixelFlow.
- Abstract(参考訳): 我々は,原画素空間で直接動作する画像生成モデルのファミリであるPixelFlowを,支配的な潜在空間モデルとは対照的に提示する。
このアプローチは、事前訓練された変分オートエンコーダ(VAE)の必要性を排除し、モデル全体のエンドツーエンドトレーニングを可能にすることにより、画像生成プロセスを単純化する。
効率的なカスケードフローモデリングにより、PixelFlowはピクセル空間における安価な計算コストを達成する。
256$\times$256 ImageNet のクラス条件画像生成ベンチマークで 1.98 の FID を達成する。
定性的テキスト画像の結果は、PixelFlowが画質、芸術性、セマンティックコントロールに優れていることを示している。
この新たなパラダイムが、次世代のビジュアル生成モデルに新たな機会を与え、開放することを期待しています。
コードとモデルはhttps://github.com/ShoufaChen/PixelFlow.comで公開されている。
関連論文リスト
- Normalizing Flows are Capable Generative Models [48.31226028595099]
TarFlowはシンプルでスケーラブルなアーキテクチャで、高性能なNFモデルを実現する。
エンドツーエンドのトレーニングは簡単で、ピクセルを直接モデリングして生成することができる。
TarFlowは、画像の確率推定に新たな最先端結果を設定し、以前のベストメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2024-12-09T09:28:06Z) - PixelBytes: Catching Unified Representation for Multimodal Generation [0.0]
PixelBytesは、統合マルチモーダル表現学習のためのアプローチである。
我々は,テキスト,音声,動作状態,画素画像の凝集表現への統合について検討する。
我々はPixelBytes PokemonデータセットとOptimal-Controlデータセットの実験を行った。
論文 参考訳(メタデータ) (2024-09-16T09:20:13Z) - Is One GPU Enough? Pushing Image Generation at Higher-Resolutions with Foundation Models [4.257210316104905]
我々はPixelsmithを紹介した。これはゼロショットのテキスト・ツー・イメージ生成フレームワークで、1つのGPUで高解像度の画像をサンプリングする。
我々は,事前学習した拡散モデルの出力を1000倍に拡大できることを初めて示し,ギガピクセル画像生成への道を開いた。
論文 参考訳(メタデータ) (2024-06-11T13:33:33Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。
まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。
我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文 参考訳(メタデータ) (2024-01-20T00:21:58Z) - RealFlow: EM-based Realistic Optical Flow Dataset Generation from Videos [28.995525297929348]
RealFlowは、ラベルのないリアルなビデオから直接、大規模な光フローデータセットを作成することができるフレームワークである。
まず,一対のビデオフレーム間の光フローを推定し,予測されたフローに基づいて,このペアから新たな画像を生成する。
本手法は,教師付きおよび教師なしの光流法と比較して,2つの標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-22T13:33:03Z) - PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image
Generation [88.55256389703082]
Pixelは画像生成のための有望な研究パラダイムである。
本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。
Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
論文 参考訳(メタデータ) (2022-04-02T10:55:11Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。