論文の概要: Adversarial Generation of Continuous Images
- arxiv url: http://arxiv.org/abs/2011.12026v2
- Date: Mon, 28 Jun 2021 09:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 12:07:16.257729
- Title: Adversarial Generation of Continuous Images
- Title(参考訳): 連続画像の逆生成
- Authors: Ivan Skorokhodov, Savva Ignatyev, Mohamed Elhoseiny
- Abstract要約: 本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
- 参考スコア(独自算出の注目度): 31.92891885615843
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In most existing learning systems, images are typically viewed as 2D pixel
arrays. However, in another paradigm gaining popularity, a 2D image is
represented as an implicit neural representation (INR) - an MLP that predicts
an RGB pixel value given its (x,y) coordinate. In this paper, we propose two
novel architectural techniques for building INR-based image decoders:
factorized multiplicative modulation and multi-scale INRs, and use them to
build a state-of-the-art continuous image GAN. Previous attempts to adapt INRs
for image generation were limited to MNIST-like datasets and do not scale to
complex real-world data. Our proposed INR-GAN architecture improves the
performance of continuous image generators by several times, greatly reducing
the gap between continuous image GANs and pixel-based ones. Apart from that, we
explore several exciting properties of the INR-based decoders, like
out-of-the-box superresolution, meaningful image-space interpolation,
accelerated inference of low-resolution images, an ability to extrapolate
outside of image boundaries, and strong geometric prior. The project page is
located at https://universome.github.io/inr-gan.
- Abstract(参考訳): 多くの既存の学習システムでは、画像は通常2Dピクセル配列と見なされる。
しかし、普及する別のパラダイムでは、2D画像は暗黙のニューラル表現(INR)として表現され、(x,y)座標からRGBのピクセル値を予測する。
本稿では,INRに基づく画像デコーダを構築するための2つの新しいアーキテクチャ手法を提案する。
画像生成にINRを適用しようとする以前の試みは、MNISTのようなデータセットに限られており、複雑な実世界のデータにスケールしない。
提案したINR-GANアーキテクチャは、連続画像生成装置の性能を数倍改善し、連続画像GANと画素ベースとのギャップを大幅に減らした。
また, INR ベースのデコーダのエキサイティングな特性として, アウトオブボックスの超解像, 有意義な画像空間補間, 低解像度画像の高速推論, 画像境界外への外挿能力, 強い幾何学的先行性などを検討した。
プロジェクトページはhttps://universome.github.io/inr-ganにある。
関連論文リスト
- Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Polynomial Implicit Neural Representations For Large Diverse Datasets [0.0]
Inlicit Neural representations (INR) は信号と画像の表現において大きな人気を得ている。
多くのINRアーキテクチャは正弦波位置符号化に依存しており、これはデータの高周波情報の原因となっている。
提案手法は,画像を関数で表現することでこのギャップに対処し,位置エンコーディングの必要性を解消する。
提案するPoly-INRモデルは, 畳み込み, 正規化, 自己アテンションを伴わずに, 最先端の生成モデルと同等に機能する。
論文 参考訳(メタデータ) (2023-03-20T20:09:46Z) - Dense Pixel-to-Pixel Harmonization via Continuous Image Representation [22.984119094424056]
Inlicit Neural Networks (HINet) を用いた新しい画像調和手法を提案する。
Retinex理論に触発されて、調和を2つの部分に分離し、合成画像の内容と環境をそれぞれキャプチャする。
本手法の有効性を,最先端の手法と比較した実験により検証した。
論文 参考訳(メタデータ) (2023-03-03T02:52:28Z) - Memory Efficient Patch-based Training for INR-based GANs [13.19626131847784]
既存のアプローチの訓練には、画像解像度に比例した計算コストが要求される。
我々は、INRベースのGANを柔軟な計算コストでトレーニングできる、新しいスケーラブルなアプローチであるマルチステージパッチベースのトレーニングを提案する。
具体的には、パッチを用いて画像の局所的な詳細を学習し、グローバルな構造情報を学習することを可能にする。
論文 参考訳(メタデータ) (2022-07-04T13:28:53Z) - Image Compression with Recurrent Neural Network and Generalized Divisive
Normalization [3.0204520109309843]
深層学習は研究コミュニティから大きな注目を集め、将来有望な画像再構成結果を生み出している。
近年の手法は、ネットワークの複雑さを大幅に増大させる、より深い複雑なネットワークの開発に焦点を当てている。
本稿では、畳み込み層を用いた解析とブロック合成と、可変レートエンコーダとデコーダ側における一般化分割正規化(GDN)の2つの有効な新しいブロックを開発する。
論文 参考訳(メタデータ) (2021-09-05T05:31:55Z) - UltraSR: Spatial Encoding is a Missing Key for Implicit Image
Function-based Arbitrary-Scale Super-Resolution [74.82282301089994]
本研究では,暗黙的イメージ関数に基づく,シンプルで効果的な新しいネットワーク設計であるUltraSRを提案する。
空間符号化は,次の段階の高精度暗黙的画像機能に対する欠落鍵であることを示す。
UltraSRは、すべての超解像スケールでDIV2Kベンチマークに最新のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2021-03-23T17:36:42Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。