論文の概要: BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations
- arxiv url: http://arxiv.org/abs/2201.04684v1
- Date: Wed, 12 Jan 2022 20:28:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-15 03:29:49.459246
- Title: BigDatasetGAN: Synthesizing ImageNet with Pixel-wise Annotations
- Title(参考訳): BigDatasetGAN: Pixel 対応アノテーションによる ImageNet の合成
- Authors: Daiqing Li, Huan Ling, Seung Wook Kim, Karsten Kreis, Adela Barriuso,
Sanja Fidler, Antonio Torralba
- Abstract要約: 我々は,GAN(Generative Adversarial Network)を介して,大規模ラベル付きデータセットを合成する。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
我々は、追加の8k実画像のセットをラベル付けして、新しいImageNetベンチマークを作成し、様々な設定でセグメンテーション性能を評価する。
- 参考スコア(独自算出の注目度): 89.42397034542189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Annotating images with pixel-wise labels is a time-consuming and costly
process. Recently, DatasetGAN showcased a promising alternative - to synthesize
a large labeled dataset via a generative adversarial network (GAN) by
exploiting a small set of manually labeled, GAN-generated images. Here, we
scale DatasetGAN to ImageNet scale of class diversity. We take image samples
from the class-conditional generative model BigGAN trained on ImageNet, and
manually annotate 5 images per class, for all 1k classes. By training an
effective feature segmentation architecture on top of BigGAN, we turn BigGAN
into a labeled dataset generator. We further show that VQGAN can similarly
serve as a dataset generator, leveraging the already annotated data. We create
a new ImageNet benchmark by labeling an additional set of 8k real images and
evaluate segmentation performance in a variety of settings. Through an
extensive ablation study we show big gains in leveraging a large generated
dataset to train different supervised and self-supervised backbone models on
pixel-wise tasks. Furthermore, we demonstrate that using our synthesized
datasets for pre-training leads to improvements over standard ImageNet
pre-training on several downstream datasets, such as PASCAL-VOC, MS-COCO,
Cityscapes and chest X-ray, as well as tasks (detection, segmentation). Our
benchmark will be made public and maintain a leaderboard for this challenging
task. Project Page: https://nv-tlabs.github.io/big-datasetgan/
- Abstract(参考訳): 画像にピクセル単位のラベルを付けることは、時間とコストのかかるプロセスである。
最近、DatasetGANは、GAN(Generative Adversarial Network)を通じて、手動でラベル付けされたGAN生成イメージの小さなセットを活用することで、大きなラベル付きデータセットを合成する、有望な代替手段を披露した。
ここでは、DatasetGANをクラス多様性のImageNetスケールにスケールする。
我々は、ImageNetで訓練されたクラス条件生成モデルBigGANの画像サンプルを、すべての1kクラスに対して、クラス毎の5つのイメージを手動でアノテートする。
BigGANの上に効果的な機能セグメンテーションアーキテクチャをトレーニングすることで、BigGANをラベル付きデータセットジェネレータにする。
さらに、VQGANは、すでにアノテーション付きデータを活用して、データセットジェネレータとして機能することを示す。
我々は8k実画像の追加セットをラベル付けし、セグメンテーション性能を様々な設定で評価することで、新しいimagenetベンチマークを作成する。
広範なアブレーション研究を通じて、ピクセル毎のタスクで異なる教師付きおよび自己教師付きバックボーンモデルをトレーニングするために、大規模なデータセットを活用することで大きな成果が得られた。
さらに, 合成データセットを事前トレーニングに使用すると, PASCAL-VOC, MS-COCO, Cityscapes, 胸部X線などの下流データセットの標準的なImageNet事前トレーニングやタスク(検出, セグメンテーション)の改善が期待できる。
私たちのベンチマークは公開され、この挑戦的なタスクのリーダーボードを維持します。
プロジェクトページ: https://nv-tlabs.github.io/big-datasetgan/
関連論文リスト
- GKGNet: Group K-Nearest Neighbor based Graph Convolutional Network for Multi-Label Image Recognition [37.02054260449195]
マルチラベル画像認識(Multi-Label Image Recognition, MLIR)は、1つの画像で複数のオブジェクトラベルを予測することを目的とした課題である。
我々は、最初の完全グラフ畳み込みモデル、グループK-アネレスト近傍グラフ畳み込みネットワーク(GKGNet)を提示する。
実験により,GKGNetは計算コストを大幅に削減し,最先端の性能を実現することを示した。
論文 参考訳(メタデータ) (2023-08-28T07:50:04Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - DatasetGAN: Efficient Labeled Data Factory with Minimal Human Effort [117.41383937100751]
現在のディープネットワークは、大規模なデータセットのトレーニングの恩恵を受ける、非常にデータハングリーです。
GAN潜入コードがどのようにデコードされ、イメージのセマンティックセグメンテーションを生成するかを示す。
これらの生成されたデータセットは、実際のデータセットと同じように、コンピュータビジョンアーキテクチャのトレーニングに使用できます。
論文 参考訳(メタデータ) (2021-04-13T20:08:29Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Learning High-Resolution Domain-Specific Representations with a GAN
Generator [5.8720142291102135]
本稿では,GANジェネレータが学習した表現を,軽量デコーダを用いてセマンティックセグメンテーションマップに簡単に投影できることを示す。
本稿では、教師なしドメイン固有の事前学習に使用できるGANジェネレータの表現を近似するLayerMatch方式を提案する。
また,LayerMatch-pretrained backboneの使用は,ImageNetの標準教師付き事前トレーニングよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2020-06-18T11:57:18Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z) - Semantically Multi-modal Image Synthesis [58.87967932525891]
セマンティックなマルチモーダル画像合成(SMIS)タスク、すなわちセマンティックレベルでのマルチモーダル画像の生成に焦点を当てる。
本稿では,ジェネレータ内のグループ畳み込みを利用して,デコーダ内のグループ畳み込み数を徐々に減少させるグループ除算ネットワーク(GroupDNet)を提案する。
GroupDNetは、セマンティックラベルを自然なイメージに翻訳する上で、はるかに制御性が高く、多くのクラスを持つデータセットに対して、高い品質の収量を持つ。
論文 参考訳(メタデータ) (2020-03-28T04:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。