論文の概要: Anysize GAN: A solution to the image-warping problem
- arxiv url: http://arxiv.org/abs/2003.03233v2
- Date: Wed, 8 Jul 2020 21:19:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 01:48:14.312147
- Title: Anysize GAN: A solution to the image-warping problem
- Title(参考訳): anysize gan: イメージワーピング問題の解決策
- Authors: Connah Kendrick, David Gillespie, Moi Hoon Yap
- Abstract要約: 本稿では,Deep Learningにおける共通問題を解決するために,GAN(General Adversarial Network)の新たなタイプを提案する。
我々は,既存の潜在ベクトルベースGAN構造に適用可能な新しいアーキテクチャを開発し,任意のサイズのオンザフライ画像を生成する。
提案手法は,特徴的関係を維持しつつ,空間的関係の保存と理解を行なわずに,異なる大きさの現実的な画像を生成することを実証する。
- 参考スコア(独自算出の注目度): 5.866114531330298
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new type of General Adversarial Network (GAN) to resolve a
common issue with Deep Learning. We develop a novel architecture that can be
applied to existing latent vector based GAN structures that allows them to
generate on-the-fly images of any size. Existing GAN for image generation
requires uniform images of matching dimensions. However, publicly available
datasets, such as ImageNet contain thousands of different sizes. Resizing image
causes deformations and changing the image data, whereas as our network does
not require this preprocessing step. We make significant changes to the
standard data loading techniques to enable any size image to be loaded for
training. We also modify the network in two ways, by adding multiple inputs and
a novel dynamic resizing layer. Finally we make adjustments to the
discriminator to work on multiple resolutions. These changes can allow multiple
resolution datasets to be trained on without any resizing, if memory allows. We
validate our results on the ISIC 2019 skin lesion dataset. We demonstrate our
method can successfully generate realistic images at different sizes without
issue, preserving and understanding spatial relationships, while maintaining
feature relationships. We will release the source codes upon paper acceptance.
- Abstract(参考訳): 本稿では,Deep Learningにおける共通問題を解決するために,GAN(General Adversarial Network)の新たなタイプを提案する。
我々は,既存の潜在ベクトルベースGAN構造に適用可能な新しいアーキテクチャを開発し,任意のサイズのオンザフライ画像を生成する。
画像生成のための既存のGANは、一致する寸法の均一な画像を必要とする。
しかし、ImageNetのような公開データセットには数千の異なるサイズが含まれている。
画像のサイズ変更は画像データの変形や変化を引き起こすが、ネットワークはこの前処理ステップを必要としない。
トレーニングのために任意のサイズの画像をロードできるように、標準的なデータローディング技術に大きな変更を加えています。
また、複数の入力と新しい動的リサイズ層を追加することで、ネットワークを2つの方法で修正する。
最後に、判別器を複数の解像度で処理するように調整する。
これらの変更により、メモリが許せば、リサイズなしで複数の解像度データセットをトレーニングできる。
isic 2019皮膚病変データセットで結果を確認した。
提案手法は,特徴的関係を維持しつつ,空間的関係の保存と理解を行なわずに,異なる大きさの現実的な画像を生成することを実証する。
論文を受理し、ソースコードを公開します。
関連論文リスト
- SCAResNet: A ResNet Variant Optimized for Tiny Object Detection in Transmission and Distribution Towers [0.42028553027796633]
従来のディープラーニングベースのオブジェクト検出ネットワークは、データ前処理の段階でイメージをリサイズし、特徴マップの均一なサイズとスケールを達成する。
本研究では,複数の表現部分空間からコンテキスト情報を抽出し学習するために,位置対応型マルチヘッドCriss-Cross Imageryを導入する。
このアプローチにより、大きさやスケールの異なる画像が一様次元の特徴写像を生成でき、特徴写像の伝搬に利用できる。
論文 参考訳(メタデータ) (2024-04-05T15:48:36Z) - Supervised Deep Learning for Content-Aware Image Retargeting with
Fourier Convolutions [11.031841470875571]
画像は、コンテンツに注意して画像のサイズを変更することを目的としている。
ラベル付きデータセットは、イメージタスクでディープラーニングモデルのトレーニングには使用できない。
通常の畳み込みニューラルネットワークは、推論時間で異なるサイズの画像を生成することができない。
論文 参考訳(メタデータ) (2023-06-12T19:17:44Z) - SARAS-Net: Scale and Relation Aware Siamese Network for Change Detection [6.12477318852572]
変化検出(CD)は、異なるタイミングで2つの画像の違いを見つけ、その領域が変化したか否かを表す変更マップを出力することを目的としている。
多くのState-of-The-Art(SoTA)メソッドは、強力な識別能力を持つディープラーニングモデルを設計する。
本稿では,この問題に対処するためのネットワークであるスケール・アンド・リレーション・アウェア・シームズ・ネットワーク(SARAS-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T16:30:33Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Multi-Domain Image-to-Image Translation with Adaptive Inference Graph [29.673550911992365]
現在のアートモデルは、複数のドメインの視覚的多様性を扱うために、大きくて深いモデルが必要です。
適応グラフ構造を用いてネットワーク容量を増やすことを提案する。
このアプローチは、ほぼ一定の計算コストを維持しながら、パラメータの調整可能な増加につながる。
論文 参考訳(メタデータ) (2021-01-11T10:47:29Z) - Memory-efficient GAN-based Domain Translation of High Resolution 3D
Medical Images [0.15092198588928965]
GAN(Generative Adversarial Network)は大規模な3次元医療画像にはほとんど適用されない。
本研究は、未ペアドメイン翻訳を確立するためのマルチスケールパッチベースのGANアプローチを提案する。
ドメイン翻訳シナリオの評価は155x240x240の脳MRIと最大512x512x512の胸部CTで行う。
論文 参考訳(メタデータ) (2020-10-06T08:43:27Z) - Shape Adaptor: A Learnable Resizing Module [59.940372879848624]
ニューラルネットワークのための新しいリサイズモジュール: 従来のリサイズ層上に構築されたドロップインエンハンスメントであるシェイプアダプタを提案する。
我々の実装では、追加の監督なしに形状適応器をエンドツーエンドで訓練することが可能です。
ネットワーク圧縮と伝達学習の2つの応用における形状適応器の有効性を示す。
論文 参考訳(メタデータ) (2020-08-03T14:15:52Z) - Learning to Learn Parameterized Classification Networks for Scalable
Input Images [76.44375136492827]
畳み込みニューラルネットワーク(CNN)は、入力解像度の変化に関して予測可能な認識動作を持たない。
我々はメタラーナーを用いて、様々な入力スケールのメインネットワークの畳み込み重みを生成する。
さらに、異なる入力解像度に基づいて、モデル予測よりもフライでの知識蒸留を利用する。
論文 参考訳(メタデータ) (2020-07-13T04:27:25Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。