論文の概要: Efficient Scale-Invariant Generator with Column-Row Entangled Pixel
Synthesis
- arxiv url: http://arxiv.org/abs/2303.14157v1
- Date: Fri, 24 Mar 2023 17:12:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 13:34:57.998595
- Title: Efficient Scale-Invariant Generator with Column-Row Entangled Pixel
Synthesis
- Title(参考訳): カラムローアンタングル型画素合成による高効率スケール不変発電機
- Authors: Thuan Hoang Nguyen, Thanh Van Le, Anh Tran
- Abstract要約: 本研究では,空間的畳み込みや粗大な設計を使わずに,効率的かつスケール平等な新しい生成モデルを提案する。
FFHQ、LSUN-Church、MetFaces、Flickr-Sceneryなど、さまざまなデータセットの実験では、CREPSのスケール一貫性とエイリアスのない画像を合成する能力が確認されている。
- 参考スコア(独自算出の注目度): 3.222802562733787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Any-scale image synthesis offers an efficient and scalable solution to
synthesize photo-realistic images at any scale, even going beyond 2K
resolution. However, existing GAN-based solutions depend excessively on
convolutions and a hierarchical architecture, which introduce inconsistency and
the $``$texture sticking$"$ issue when scaling the output resolution. From
another perspective, INR-based generators are scale-equivariant by design, but
their huge memory footprint and slow inference hinder these networks from being
adopted in large-scale or real-time systems. In this work, we propose
$\textbf{C}$olumn-$\textbf{R}$ow $\textbf{E}$ntangled $\textbf{P}$ixel
$\textbf{S}$ynthesis ($\textbf{CREPS}$), a new generative model that is both
efficient and scale-equivariant without using any spatial convolutions or
coarse-to-fine design. To save memory footprint and make the system scalable,
we employ a novel bi-line representation that decomposes layer-wise feature
maps into separate $``$thick$"$ column and row encodings. Experiments on
various datasets, including FFHQ, LSUN-Church, MetFaces, and Flickr-Scenery,
confirm CREPS' ability to synthesize scale-consistent and alias-free images at
any arbitrary resolution with proper training and inference speed. Code is
available at https://github.com/VinAIResearch/CREPS.
- Abstract(参考訳): 任意のスケールの画像合成は、任意のスケールで写真リアルな画像を合成する、効率的でスケーラブルなソリューションを提供する。
しかし、既存のGANベースのソリューションは畳み込みと階層アーキテクチャに過度に依存するため、出力解像度をスケールする際、一貫性と$``$texture sticking$"$問題が発生する。
別の観点では、inrベースのジェネレータは設計によってスケール等価であるが、その巨大なメモリフットプリントと遅い推論は、大規模またはリアルタイムシステムでこれらのネットワークを採用することを妨げている。
本研究では,空間的畳み込みや粗雑な設計を使わずに,効率的かつスケール等価な新しい生成モデルである$\textbf{c}$olumn-$\textbf{r}$ow$\textbf{e}$ntangled$\textbf{p}$ixel$\textbf{s}$ynthesis (\textbf{creps}$)を提案する。
メモリフットプリントを節約し、システムをスケーラブルにするために、レイヤ毎の機能マップを$`$thick$"$カラムと行エンコーディングに分割する、新しい双方向表現を採用しました。
FFHQ、LSUN-Church、MetFaces、Flickr-Sceneryといったさまざまなデータセットの実験では、CREPSが適切なトレーニングと推論速度で任意の解像度でスケール一貫性とエイリアスのない画像を合成する能力を確認している。
コードはhttps://github.com/VinAIResearch/CREPS.comから入手できる。
関連論文リスト
- $\infty$-Brush: Controllable Large Image Synthesis with Diffusion Models in Infinite Dimensions [58.42011190989414]
無限次元における新しい条件拡散モデル、制御可能な大画像合成のための$infty$-Brushを導入する。
我々の知る限り、$infty$-Brushは関数空間における最初の条件拡散モデルであり、最大4096times4096$ピクセルの任意の解像度で画像を制御できる。
論文 参考訳(メタデータ) (2024-07-20T00:04:49Z) - Urban Radiance Field Representation with Deformable Neural Mesh
Primitives [41.104140341641006]
変形可能なニューラルメッシュプリミティブ(Deformable Neural Mesh Primitive, DNMP)は、古典的メッシュ表現の柔軟でコンパクトなニューラルバリアントである。
我々の表現は高速レンダリング(2.07ms/1kピクセル)と低ピークメモリ(110MB/1kピクセル)を可能にする。
我々は、33$times$でバニラNeRFより高速に動作でき、高度に最適化されたInstant-NGP(0.61対0.71ms/1kピクセル)に匹敵する軽量版を示す。
論文 参考訳(メタデータ) (2023-07-20T11:24:55Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - Learning sparse auto-encoders for green AI image coding [5.967279020820772]
本稿では,メモリフットプリントが小さく,計算能力の少ないCAEを用いた画像圧縮の損失問題に対処する。
制約付きアプローチと新しい構造化スパース学習手法を提案する。
実験結果から,$ell_1,1$制約は最も構造化された近位間隔を提供し,メモリと計算コストの低減を図っている。
論文 参考訳(メタデータ) (2022-09-09T06:31:46Z) - EpiGRAF: Rethinking training of 3D GANs [60.38818140637367]
本稿では,SotA画像品質の高い高解像度3Dジェネレータを,パッチワイズを単純に訓練するまったく異なる経路を辿ることによって実現可能であることを示す。
EpiGRAFと呼ばれる結果のモデルは、効率的で高解像度で純粋な3Dジェネレータである。
論文 参考訳(メタデータ) (2022-06-21T17:08:23Z) - Near Perfect GAN Inversion [17.745342857726925]
写真のほぼ完全な再構築を実現するアルゴリズムを導出する。
このアプローチは、複製したい実画像と区別できない合成画像を生成するだけでなく、これらの画像は容易に編集可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T23:58:13Z) - Spatial-Separated Curve Rendering Network for Efficient and
High-Resolution Image Harmonization [59.19214040221055]
本稿では,空間分離型曲線描画ネットワーク(S$2$CRNet)を提案する。
提案手法は従来の手法と比較して90%以上のパラメータを減少させる。
提案手法は,既存の手法よりも10ドル以上高速な高解像度画像をリアルタイムにスムーズに処理することができる。
論文 参考訳(メタデータ) (2021-09-13T07:20:16Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - PNEN: Pyramid Non-Local Enhanced Networks [23.17149002568982]
我々は,各画素間の接続を構築するために,新しい非局所モジュールであるピラミッド非局所ブロックを提案する。
提案したモジュールに基づいて,エッジ保存画像平滑化のためのピラミッド非局所拡張ネットワークを考案する。
超解像法と超解像法という2つの既存手法に統合し,一貫した性能向上を実現した。
論文 参考訳(メタデータ) (2020-08-22T03:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。