Fugu-MT 論文翻訳(概要): PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

論文の概要: PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation

arxiv url: http://arxiv.org/abs/2204.00833v1
Date: Sat, 2 Apr 2022 10:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-05 16:32:38.213451
Title: PixelFolder: An Efficient Progressive Pixel Synthesis Network for Image Generation
Title（参考訳）: pixelfolder:画像生成のための効率的なプログレッシブピクセル合成ネットワーク
Authors: Jing He, Yiyi Zhou, Qi Zhang, Yunhang Shen, Xiaoshuai Sun, Chao Chen, Rongrong Ji
Abstract要約: Pixelは画像生成のための有望な研究パラダイムである。本稿では,Pixel のような効率的な画像生成に向けたプログレッシブピクセル合成ネットワークを提案する。 Pixelは支出を大幅に減らし、2つのベンチマークデータセットで新しい最先端(SOTA)パフォーマンスを得る。
参考スコア（独自算出の注目度）: 88.55256389703082
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pixel synthesis is a promising research paradigm for image generation, which can well exploit pixel-wise prior knowledge for generation. However, existing methods still suffer from excessive memory footprint and computation overhead. In this paper, we propose a progressive pixel synthesis network towards efficient image generation, coined as PixelFolder. Specifically, PixelFolder formulates image generation as a progressive pixel regression problem and synthesizes images by a multi-stage paradigm, which can greatly reduce the overhead caused by large tensor transformations. In addition, we introduce novel pixel folding operations to further improve model efficiency while maintaining pixel-wise prior knowledge for end-to-end regression. With these innovative designs, we greatly reduce the expenditure of pixel synthesis, e.g., reducing 90% computation and 57% parameters compared to the latest pixel synthesis method called CIPS. To validate our approach, we conduct extensive experiments on two benchmark datasets, namely FFHQ and LSUN Church. The experimental results show that with much less expenditure, PixelFolder obtains new state-of-the-art (SOTA) performance on two benchmark datasets, i.e., 3.77 FID and 2.45 FID on FFHQ and LSUN Church, respectively. Meanwhile, PixelFolder is also more efficient than the SOTA methods like StyleGAN2, reducing about 74% computation and 36% parameters, respectively. These results greatly validate the effectiveness of the proposed PixelFolder.
Abstract（参考訳）: 画素合成は画像生成において有望な研究パラダイムであり、画像生成のためのピクセル単位の事前知識をうまく活用することができる。しかし、既存のメソッドは依然として過度のメモリフットプリントと計算オーバーヘッドに悩まされている。本稿では,PixelFolder を用いた画像生成のためのプログレッシブピクセル合成ネットワークを提案する。具体的には、PixelFolderはプログレッシブピクセル回帰問題として画像生成を定式化し、多段階パラダイムで画像を合成することで、大きなテンソル変換によるオーバーヘッドを大幅に削減することができる。さらに,エンド・ツー・エンド回帰の事前知識を維持しつつ,モデルの効率をさらに向上させるため,新たな画素折り畳み操作を導入する。これらの革新的な設計により、CIPSと呼ばれる最新の画素合成法と比較して、90%の計算と57%のパラメータの削減など、ピクセル合成の費用を大幅に削減する。このアプローチを検証するために、FFHQとLSUN Churchという2つのベンチマークデータセットについて広範な実験を行った。実験結果から,PixelFolderは2つのベンチマークデータセット,すなわちFFHQとLSUN Churchにおける3.77 FIDと2.45 FIDに対して,新たなSOTA(State-of-the-art)性能を得ることができた。一方、PixelFolderはStyleGAN2のようなSOTAメソッドよりも効率的で、それぞれ74%の計算と36%のパラメータを削減している。これらの結果は,提案したPixelFolderの有効性を大いに検証した。

関連論文リスト

PixelGen: Pixel Diffusion Beats Latent Diffusion with Perceptual Loss [47.868429337792314]
知覚的監視機能を備えたシンプルなピクセル拡散フレームワークであるPixelGenを提案する。フルイメージ多様体をモデル化する代わりに、PixelGenは2つの補完的な知覚的損失を導入した。 LPIPSの損失は、より優れた局所パターンの学習を促進する一方、DINOベースの知覚的損失は、グローバルな意味論を強化する。
論文参考訳（メタデータ） (2026-02-02T18:59:42Z)
DPAR: Dynamic Patchification for Efficient Autoregressive Visual Generation [10.719563134726057]
本稿では,デコーダのみの自己回帰モデルであるDPARについて述べる。 DPAR は Imagenet 256 と 384 でそれぞれトークン数を 1.81x と 2.06x に削減し、トレーニングコストの最大40% FLOP を削減した。
論文参考訳（メタデータ） (2025-12-26T05:03:47Z)
PixelDiT: Pixel Diffusion Transformers for Image Generation [48.456815413366535]
PixelDiTはDiffusion Transformers用の単一ステージのエンドツーエンドモデルである。オートエンコーダの必要性を排除し、ピクセル空間内で拡散過程を直接学習する。 ImageNet 256x256で1.61 FIDを達成し、既存のピクセル生成モデルを大きく上回っている。
論文参考訳（メタデータ） (2025-11-25T18:59:25Z)
CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文参考訳（メタデータ） (2025-03-24T01:59:29Z)
Accelerating Image Super-Resolution Networks with Pixel-Level Classification [29.010136088811137]
Pixel-level for Single Image SuperResolutionは、ピクセルレベルで計算資源を適応的に分配する新しい手法である。提案手法では,再学習を伴わない推論における性能と計算コストのバランスが可能である。
論文参考訳（メタデータ） (2024-07-31T08:53:10Z)
An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。 TiTokは最先端のアプローチと競合するパフォーマンスを実現している。我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文参考訳（メタデータ） (2024-06-11T17:59:56Z)
Transformer based Pluralistic Image Completion with Reduced Information Loss [72.92754600354199]
トランスフォーマーをベースとした手法は,近年,イメージインペイントにおいて大きな成功を収めている。彼らは各ピクセルをトークンとみなし、情報損失の問題に悩まされる。我々はPUTと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-31T01:20:16Z)
Pixel Adapter: A Graph-Based Post-Processing Approach for Scene Text Image Super-Resolution [22.60056946339325]
アップサンプリングによる画素歪みに対処するために,グラフアテンションに基づくPixel Adapter Module (PAM)を提案する。 PAMは、各ピクセルが隣人と対話し、機能を更新することで、ローカルな構造情報を効果的にキャプチャする。提案手法は,従来の認識精度を上回り,高品質な超解像を生成することを実証する。
論文参考訳（メタデータ） (2023-09-16T08:12:12Z)
CoordFill: Efficient High-Resolution Image Inpainting via Parameterized Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文参考訳（メタデータ） (2023-03-15T11:13:51Z)
Hybrid Pixel-Unshuffled Network for Lightweight Image Super-Resolution [64.54162195322246]
畳み込みニューラルネットワーク(CNN)は画像超解像(SR)において大きな成功を収めたほとんどのディープCNNベースのSRモデルは、高い性能を得るために大量の計算を処理している。 SRタスクに効率的かつ効果的なダウンサンプリングモジュールを導入することで,HPUN(Hybrid Pixel-Unshuffled Network)を提案する。
論文参考訳（メタデータ） (2022-03-16T20:10:41Z)
Parallel Discrete Convolutions on Adaptive Particle Representations of Images [2.362412515574206]
適応粒子表現上の離散畳み込み演算子のネイティブ実装のためのデータ構造とアルゴリズムを提案する。 APRは、サンプリング解像度を画像信号に局所的に適応するコンテンツ適応型画像表現である。 APRの畳み込みは、マルチコアCPUとGPUアーキテクチャを効率的に並列化するスケール適応アルゴリズムを自然に導くことを示す。
論文参考訳（メタデータ） (2021-12-07T09:40:05Z)
SIN:Superpixel Interpolation Network [9.046310874823002]
従来のアルゴリズムとディープラーニングベースのアルゴリズムは、スーパーピクセルセグメンテーションにおける2つの主要なストリームである。本稿では,エンド・ツー・エンド方式で下流タスクと統合可能な深層学習に基づくスーパーピクセルセグメンテーションアルゴリズムSINを提案する。
論文参考訳（メタデータ） (2021-10-17T02:21:11Z)
Generating Superpixels for High-resolution Images with Decoupled Patch Calibration [82.21559299694555]
Patch Networks (PCNet) は高解像度のスーパーピクセルセグメンテーションを効率的かつ正確に実装するように設計されている。 DPCは高解像度画像から局所パッチを取得し、動的にバイナリマスクを生成し、ネットワークを領域境界に集中させる。特に、DPCは高解像度画像からローカルパッチを取り、動的にバイナリマスクを生成して、ネットワークを領域境界に集中させる。
論文参考訳（メタデータ） (2021-08-19T10:33:05Z)
Implicit Integration of Superpixel Segmentation into Fully Convolutional Networks [11.696069523681178]
スーパーピクセル方式をCNNに暗黙的に統合する方法を提案する。提案手法では,下地層に画素を階層的にグループ化し,スーパーピクセルを生成する。本手法は,セマンティックセグメンテーション,スーパーピクセルセグメンテーション,モノクル深度推定などのタスクで評価する。
論文参考訳（メタデータ） (2021-03-05T02:20:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。