論文の概要: Can Giraffes Become Birds? An Evaluation of Image-to-image Translation
for Data Generation
- arxiv url: http://arxiv.org/abs/2001.03637v2
- Date: Sun, 31 May 2020 03:25:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-12 23:12:47.322502
- Title: Can Giraffes Become Birds? An Evaluation of Image-to-image Translation
for Data Generation
- Title(参考訳): キリンは鳥になれるか?
データ生成のための画像間変換の評価
- Authors: Daniel V. Ruiz, Gabriel Salomon, Eduardo Todt
- Abstract要約: 新しいデータを生成するためにGAN(Generative Adrial Networks)を用いて画像から画像への変換を行う。
InstaGANという名前の教師なしクロスドメイン翻訳者は、両方のドメイン間の翻訳を学ぶために、キリンと鳥とそれぞれのマスクで訓練された。
元々の空間配置と背景を保存しつつ、原キリン画像からの翻訳を用いて合成鳥画像のデータセットを生成した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing interest in image-to-image translation with
applications ranging from generating maps from satellite images to creating
entire clothes' images from only contours. In the present work, we investigate
image-to-image translation using Generative Adversarial Networks (GANs) for
generating new data, taking as a case study the morphing of giraffes images
into bird images. Morphing a giraffe into a bird is a challenging task, as they
have different scales, textures, and morphology. An unsupervised cross-domain
translator entitled InstaGAN was trained on giraffes and birds, along with
their respective masks, to learn translation between both domains. A dataset of
synthetic bird images was generated using translation from originally giraffe
images while preserving the original spatial arrangement and background. It is
important to stress that the generated birds do not exist, being only the
result of a latent representation learned by InstaGAN. Two subsets of common
literature datasets were used for training the GAN and generating the
translated images: COCO and Caltech-UCSD Birds 200-2011. To evaluate the
realness and quality of the generated images and masks, qualitative and
quantitative analyses were made. For the quantitative analysis, a pre-trained
Mask R-CNN was used for the detection and segmentation of birds on Pascal VOC,
Caltech-UCSD Birds 200-2011, and our new dataset entitled FakeSet. The
generated dataset achieved detection and segmentation results close to the real
datasets, suggesting that the generated images are realistic enough to be
detected and segmented by a state-of-the-art deep neural network.
- Abstract(参考訳): 衛星画像からの地図生成から輪郭のみから服全体の画像の作成まで、画像から画像への翻訳への関心が高まっている。
本研究では,新たなデータを生成するためのgan(generative adversarial network)を用いた画像から画像への翻訳について検討する。
キリンを鳥に変身させるのは難しい作業であり、様々な大きさ、質感、形態を持っている。
InstaGANという名前の教師なしクロスドメイン翻訳者は、両方のドメイン間の翻訳を学ぶために、キリンと鳥とそれぞれのマスクで訓練された。
もともとの空間配置と背景を保存しつつ、キリン画像からの翻訳を用いて合成鳥画像のデータセットを生成した。
生成した鳥類は存在せず、InstaGANが学習した潜伏表現の結果に過ぎないことを強調することが重要である。
共通文献データセットの2つのサブセットは、GANのトレーニングと、COCOとCaltech-UCSD Birds 200-2011の翻訳画像の生成に使用された。
生成した画像とマスクの現実性と品質を評価するため,質的,定量的な分析を行った。
定量的解析のために,Pascal VOC,Caltech-UCSD Birds 200-2011,およびFakeSetという新たなデータセット上で,事前学習したMask R-CNNを用いて鳥の検出とセグメンテーションを行った。
生成されたデータセットは、実際のデータセットに近い検出とセグメンテーションの結果を達成し、生成されたイメージは最先端のディープニューラルネットワークによって検出およびセグメンテーションされるのに十分なほどリアルであることを示唆している。
関連論文リスト
- Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - BirdSAT: Cross-View Contrastive Masked Autoencoders for Bird Species
Classification and Mapping [22.30038765017189]
本稿では,世界中の鳥類の詳細な分類と生態地図作成に有用なメタデータ認識型自己教師型学習(SSL)フレームワークを提案する。
当社のフレームワークは,コントラスト学習(CL)とMasked Image Modeling(MIM)の2つのSSL戦略を統合するとともに,鳥の地上レベルの画像にメタデータを付加した埋め込み空間を充実させる。
本研究では,小粒度の視覚的分類(FGVC)とクロスモーダル検索(クロスモーダル検索)という2つの下流課題に基づいて,鳥の細粒度・地理的に条件付けられた特徴を学習できることを実証した。
論文 参考訳(メタデータ) (2023-10-29T22:08:00Z) - Parents and Children: Distinguishing Multimodal DeepFakes from Natural Images [60.34381768479834]
近年の拡散モデルの発展により、自然言語のテキストプロンプトから現実的なディープフェイクの生成が可能になった。
我々は、最先端拡散モデルにより生成されたディープフェイク検出に関する体系的研究を開拓した。
論文 参考訳(メタデータ) (2023-04-02T10:25:09Z) - Extracting Semantic Knowledge from GANs with Unsupervised Learning [65.32631025780631]
GAN(Generative Adversarial Networks)は、特徴写像のセマンティクスを線形に分離可能な形でエンコードする。
本稿では,線形分離性を利用してGANの特徴をクラスタリングする新しいクラスタリングアルゴリズムKLiSHを提案する。
KLiSHは、さまざまなオブジェクトのデータセットに基づいてトレーニングされたGANのきめ細かいセマンティクスの抽出に成功している。
論文 参考訳(メタデータ) (2022-11-30T03:18:16Z) - InvGAN: Invertible GANs [88.58338626299837]
InvGANはInvertible GANの略で、高品質な生成モデルの潜在空間に実際の画像を埋め込むことに成功した。
これにより、画像のインペイント、マージ、オンラインデータ拡張を実行できます。
論文 参考訳(メタデータ) (2021-12-08T21:39:00Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Towards Fine-grained Image Classification with Generative Adversarial
Networks and Facial Landmark Detection [0.0]
GANベースのデータ拡張を使用して、余分なデータセットインスタンスを生成します。
近年の視覚変換器 (ViT) モデルを用いて, きめ細かい画像分類の精度を評価し, 評価を行った。
論文 参考訳(メタデータ) (2021-08-28T06:32:42Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。