論文の概要: Any-resolution Training for High-resolution Image Synthesis
- arxiv url: http://arxiv.org/abs/2204.07156v1
- Date: Thu, 14 Apr 2022 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 13:10:11.383226
- Title: Any-resolution Training for High-resolution Image Synthesis
- Title(参考訳): 高分解能画像合成のためのany- resolution training
- Authors: Lucy Chai, Michael Gharbi, Eli Shechtman, Phillip Isola, Richard Zhang
- Abstract要約: 生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
- 参考スコア(独自算出の注目度): 55.19874755679901
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative models operate at fixed resolution, even though natural images
come in a variety of sizes. As high-resolution details are downsampled away,
and low-resolution images are discarded altogether, precious supervision is
lost. We argue that every pixel matters and create datasets with variable-size
images, collected at their native resolutions. Taking advantage of this data is
challenging; high-resolution processing is costly, and current architectures
can only process fixed-resolution data. We introduce continuous-scale training,
a process that samples patches at random scales to train a new generator with
variable output resolutions. First, conditioning the generator on a target
scale allows us to generate higher resolutions images than previously possible,
without adding layers to the model. Second, by conditioning on continuous
coordinates, we can sample patches that still obey a consistent global layout,
which also allows for scalable training at higher resolutions. Controlled FFHQ
experiments show our method takes advantage of the multi-resolution training
data better than discrete multi-scale approaches, achieving better FID scores
and cleaner high-frequency details. We also train on other natural image
domains including churches, mountains, and birds, and demonstrate arbitrary
scale synthesis with both coherent global layouts and realistic local details,
going beyond 2K resolution in our experiments. Our project page is available
at: https://chail.github.io/anyres-gan/.
- Abstract(参考訳): 生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作する。
高解像度の詳細が切り離され、低解像度の画像は完全に破棄されるため、重要な監視が失われる。
すべてのピクセルが重要であり、ネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
高い解像度の処理はコストがかかり、現在のアーキテクチャでは固定解像度のデータしか処理できない。
我々は,無作為なスケールでパッチをサンプリングし,可変出力解像度で新しいジェネレータを訓練するプロセスである継続的スケールトレーニングを導入する。
まず、ターゲットスケールでジェネレータを条件付けすることで、モデルにレイヤーを追加することなく、従来よりも高解像度の画像を生成することができる。
第二に、連続的な座標を条件付けすることで、一貫したグローバルなレイアウトに従っているパッチをサンプリングすることができます。
制御されたffhq実験により,マルチレゾリューショントレーニングデータを離散的マルチスケールアプローチよりもうまく活用し,fidスコアを向上し,高周波数詳細をクリーンにすることを示す。
また、教会、山、鳥などの自然画像ドメインをトレーニングし、コヒーレントなグローバルレイアウトとリアルなローカルディテールの両方で任意のスケール合成を示し、実験では2k解像度を超えています。
私たちのプロジェクトページは、https://chail.github.io/anyres-gan/で閲覧できます。
関連論文リスト
- Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - Learning Dual-Level Deformable Implicit Representation for Real-World Scale Arbitrary Super-Resolution [81.74583887661794]
整数と非整数のスケーリング要素を併用した,新しい実世界のスーパーレゾリューションベンチマークを構築した。
実世界の任意の超解像を解くために,Dual-level Deformable Implicit Representation (DDIR)を提案する。
実世界の任意の超解像のためのRealArbiSRおよびRealSRベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-16T13:44:42Z) - Continuous Cross-resolution Remote Sensing Image Change Detection [28.466756872079472]
実世界のアプリケーションは、空間解像度の異なるバイテンポラルイメージに基づいて、クロスレゾリューション変化検出(別名、CD)の必要性を高める。
本研究では,様々な解像度差の合成サンプルから得られたHR結果を連続的に予測するモデルを実現するために,スケール不変学習を提案する。
提案手法は,3つのデータセット上で,いくつかのバニラCD法と2つのクロスレゾリューションCD法より有意に優れていた。
論文 参考訳(メタデータ) (2023-05-24T04:57:24Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Resolution based Feature Distillation for Cross Resolution Person
Re-Identification [17.86505685442293]
人物の再識別(re-id)は、異なるカメラビューで同一人物の画像を取得することを目的としている。
解像度のミスマッチは、興味のある人とカメラの間の距離が異なるため起こる。
本稿では,複数の解像度の問題を克服するために,分解能に基づく特徴蒸留(RFD)アプローチを提案する。
論文 参考訳(メタデータ) (2021-09-16T11:07:59Z) - InfinityGAN: Towards Infinite-Resolution Image Synthesis [92.40782797030977]
任意の解像度画像を生成するinfinityganを提案する。
少ない計算資源でパッチバイパッチをシームレスに訓練し、推論する方法を示す。
論文 参考訳(メタデータ) (2021-04-08T17:59:30Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z) - Gated Fusion Network for Degraded Image Super Resolution [78.67168802945069]
本稿では,基本特徴と回復特徴を別々に抽出する二分岐畳み込みニューラルネットワークを提案する。
特徴抽出ステップを2つのタスク非依存ストリームに分解することで、デュアルブランチモデルがトレーニングプロセスを容易にすることができる。
論文 参考訳(メタデータ) (2020-03-02T13:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。