論文の概要: Learning Images Across Scales Using Adversarial Training
- arxiv url: http://arxiv.org/abs/2406.08924v1
- Date: Thu, 13 Jun 2024 08:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:44:22.543811
- Title: Learning Images Across Scales Using Adversarial Training
- Title(参考訳): 対人訓練による大規模画像の学習
- Authors: Krzysztof Wolski, Adarsh Djeacoumar, Alireza Javanmardi, Hans-Peter Seidel, Christian Theobalt, Guillaume Cordonnier, Karol Myszkowski, George Drettakis, Xingang Pan, Thomas Leimkühler,
- Abstract要約: 本研究では,通常の画像の非構造的コレクションからマグニチュード・オブ・マグニチュード・スケールを捉える表現を学習するための新しいパラダイムを考案する。
筆者らのジェネレータは,マルチスケール生成モデルとして利用でき,非構造化パッチからのスケール空間の再構成にも利用できることを示す。
- 参考スコア(独自算出の注目度): 64.59447233902735
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The real world exhibits rich structure and detail across many scales of observation. It is difficult, however, to capture and represent a broad spectrum of scales using ordinary images. We devise a novel paradigm for learning a representation that captures an orders-of-magnitude variety of scales from an unstructured collection of ordinary images. We treat this collection as a distribution of scale-space slices to be learned using adversarial training, and additionally enforce coherency across slices. Our approach relies on a multiscale generator with carefully injected procedural frequency content, which allows to interactively explore the emerging continuous scale space. Training across vastly different scales poses challenges regarding stability, which we tackle using a supervision scheme that involves careful sampling of scales. We show that our generator can be used as a multiscale generative model, and for reconstructions of scale spaces from unstructured patches. Significantly outperforming the state of the art, we demonstrate zoom-in factors of up to 256x at high quality and scale consistency.
- Abstract(参考訳): 現実世界は多くの観測範囲にまたがって豊富な構造と詳細を示す。
しかし、通常の画像を用いて広い範囲のスケールを捉え、表現することは困難である。
本研究では,通常の画像の非構造的コレクションからマグニチュード・オブ・マグニチュード・スケールを捉える表現を学習するための新しいパラダイムを考案する。
我々は,このコレクションを,逆行訓練を用いて学習するスケール空間スライス分布として扱うとともに,スライス間のコヒーレンシーを強制する。
提案手法は,出現する連続スケール空間を対話的に探索することのできる,慎重に挿入された手続き周波数コンテンツを持つマルチスケールジェネレータに依存している。
非常に異なるスケールでのトレーニングは安定性に関する課題を生じさせます。
筆者らのジェネレータは,マルチスケール生成モデルとして利用でき,非構造化パッチからのスケール空間の再構成にも利用できることを示す。
最先端技術よりも顕著に優れており,高品質かつスケールの整合性において最大256倍のズームイン係数を示す。
関連論文リスト
- FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Generative Powers of Ten [60.6740997942711]
本稿では,複数の画像スケールにまたがる一貫したコンテンツを生成するために,テキスト・ツー・イメージ・モデルを用いる手法を提案する。
マルチスケール拡散サンプリングを共同で行うことで実現した。
本手法は従来の超解像法よりも深いズームレベルを実現する。
論文 参考訳(メタデータ) (2023-12-04T18:59:25Z) - Dual Pyramid Generative Adversarial Networks for Semantic Image
Synthesis [94.76988562653845]
セマンティック画像合成の目標は、セマンティックラベルマップからフォトリアリスティック画像を生成することである。
しかし、現在の最先端のアプローチは、さまざまなスケールで画像で現実的なオブジェクトを生成するのに依然として苦労している。
本研究では,空間適応型正規化ブロックの条件付けを各スケールで同時に学習するDual Pyramid Generative Adversarial Network (DP-GAN)を提案する。
論文 参考訳(メタデータ) (2022-10-08T18:45:44Z) - Scale Attention for Learning Deep Face Representation: A Study Against
Visual Scale Variation [69.45176408639483]
我々はスケール空間理論に頼って凸層を再構築する。
我々はSCale AttentioN Conv Neural Network(textbfSCAN-CNN)という新しいスタイルを構築した。
単発方式として、推論はマルチショット融合よりも効率的である。
論文 参考訳(メタデータ) (2022-09-19T06:35:04Z) - Arbitrary-Scale Image Synthesis [149.0290830305808]
位置エンコーディングにより、1つの敵ネットワークをトレーニングし、異なるスケールの画像を生成することができる。
生成器の変換層に不変なスケール一貫性のある位置符号化の設計を提案する。
画像合成のための様々な一般的なデータセットに対して,連続したスケールの競合結果を示す。
論文 参考訳(メタデータ) (2022-04-05T15:10:43Z) - Nested Scale Editing for Conditional Image Synthesis [19.245119912119947]
本稿では,潜在コード空間における階層化ナビゲーションを実現する画像合成手法を提案する。
ごく少数の部分的あるいは低解像度の画像で、我々のアプローチは一貫して最先端の画像よりも優れています。
論文 参考訳(メタデータ) (2020-06-03T04:29:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。