論文の概要: TreeGAN: Incorporating Class Hierarchy into Image Generation
- arxiv url: http://arxiv.org/abs/2009.07734v2
- Date: Tue, 30 Nov 2021 04:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 23:00:08.081222
- Title: TreeGAN: Incorporating Class Hierarchy into Image Generation
- Title(参考訳): TreeGAN: クラス階層を画像生成に組み込む
- Authors: Ruisi Zhang and Luntian Mou and Pengtao Xie
- Abstract要約: 条件画像生成(CIG)はコンピュータビジョンと機械学習において広く研究されている問題である。
クラス階層を組み込む方法として,事前制御とポスト制約の2つを提案する。
ポスト制約では、画像が生成されると、クラス階層との整合性を測定し、一貫性スコアを使用してジェネレータのトレーニングをガイドする。
- 参考スコア(独自算出の注目度): 16.94626320879776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional image generation (CIG) is a widely studied problem in computer
vision and machine learning. Given a class, CIG takes the name of this class as
input and generates a set of images that belong to this class. In existing CIG
works, for different classes, their corresponding images are generated
independently, without considering the relationship among classes. In
real-world applications, the classes are organized into a hierarchy and their
hierarchical relationships are informative for generating high-fidelity images.
In this paper, we aim to leverage the class hierarchy for conditional image
generation. We propose two ways of incorporating class hierarchy: prior control
and post constraint. In prior control, we first encode the class hierarchy,
then feed it as a prior into the conditional generator to generate images. In
post constraint, after the images are generated, we measure their consistency
with the class hierarchy and use the consistency score to guide the training of
the generator. Based on these two ideas, we propose a TreeGAN model which
consists of three modules: (1) a class hierarchy encoder (CHE) which takes the
hierarchical structure of classes and their textual names as inputs and learns
an embedding for each class; the embedding captures the hierarchical
relationship among classes; (2) a conditional image generator (CIG) which takes
the CHE-generated embedding of a class as input and generates a set of images
belonging to this class; (3) a consistency checker which performs hierarchical
classification on the generated images and checks whether the generated images
are compatible with the class hierarchy; the consistency score is used to guide
the CIG to generate hierarchy-compatible images. Experiments on various
datasets demonstrate the effectiveness of our method.
- Abstract(参考訳): 条件画像生成(CIG)はコンピュータビジョンと機械学習において広く研究されている問題である。
クラスが与えられた場合、CIGはクラス名を入力として取り、このクラスに属する一連の画像を生成する。
既存のCIG作品では、クラス間の関係を考慮せずに、異なるクラスに対して対応する画像が独立して生成される。
現実世界のアプリケーションでは、クラスは階層構造に編成され、それらの階層的関係は高忠実な画像を生成するのに役立ちます。
本稿では,条件付き画像生成にクラス階層を活用することを目的とする。
クラス階層を組み込む方法として,事前制御とポスト制約の2つを提案する。
事前制御では、まずクラス階層をエンコードし、それから条件付きジェネレータにプリエントとして送り、イメージを生成します。
ポスト制約では、画像が生成されると、クラス階層との整合性を測定し、一貫性スコアを使用してジェネレータのトレーニングをガイドする。
Based on these two ideas, we propose a TreeGAN model which consists of three modules: (1) a class hierarchy encoder (CHE) which takes the hierarchical structure of classes and their textual names as inputs and learns an embedding for each class; the embedding captures the hierarchical relationship among classes; (2) a conditional image generator (CIG) which takes the CHE-generated embedding of a class as input and generates a set of images belonging to this class; (3) a consistency checker which performs hierarchical classification on the generated images and checks whether the generated images are compatible with the class hierarchy; the consistency score is used to guide the CIG to generate hierarchy-compatible images.
各種データセットを用いた実験により,本手法の有効性を示す。
関連論文リスト
- HGCLIP: Exploring Vision-Language Models with Graph Representations for Hierarchical Understanding [18.95003393925676]
異なる階層レベルでカテゴリを分類する場合、従来のユニモーダルアプローチは主にイメージ機能に焦点を当て、複雑なシナリオにおける制限を明らかにする。
ビジョンランゲージモデル(VLM)とクラス階層を統合する最近の研究は、将来性を示しているが、階層関係を完全に活用するには至っていない。
本稿では,CLIPとグラフ表現学習による階層型クラス構造のより深い活用を効果的に組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-23T15:42:42Z) - ChatGPT-Powered Hierarchical Comparisons for Image Classification [12.126353699873281]
大規模言語モデル(LLM)に基づく画像分類のための新しいフレームワークを提案する。
クラスを階層に分類し、階層レベルで画像テキストの埋め込みを比較して分類し、直感的で効果的で説明可能なアプローチをもたらす。
論文 参考訳(メタデータ) (2023-11-01T00:26:40Z) - Stable Attribute Group Editing for Reliable Few-shot Image Generation [88.59350889410794]
本稿では,編集ベースのフレームワークであるAttribute Group Editing (AGE) について述べる。
下流分類におけるGAN生成画像では,クラス不整合が一般的な問題であることがわかった。
我々は,SAGEの下流分類性能を,画素および周波数成分の増大により向上させることを提案する。
論文 参考訳(メタデータ) (2023-02-01T01:51:47Z) - A Capsule Network for Hierarchical Multi-Label Image Classification [2.507647327384289]
階層的な多ラベル分類は、階層構造や分類に基づくより小さな分類に分類された多クラス画像分類問題に適用される。
階層分類のためのマルチラベルカプセルネットワーク(ML-CapsNet)を提案する。
論文 参考訳(メタデータ) (2022-09-13T04:17:08Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Hierarchical Image Classification with A Literally Toy Dataset [16.938432494176627]
この研究は、Lego-15という新しいデータセットで行われます。レゴのブロックの合成画像と実際の画像で構成され、Lego-15データセットには15種類のブロックが含まれています。
クラスが上述の特徴を持つ分類タスクを定義し、フラットクラスとベースクラスは階層的に階層的な画像分類として構成される。
具体的には、階層ラベルとUDA技術で教師付き特徴抽出器を訓練し、入力画像の複数の特徴を出力する。
論文 参考訳(メタデータ) (2021-11-01T12:35:58Z) - Collaging Class-specific GANs for Semantic Image Synthesis [68.87294033259417]
本稿では,高分解能なセマンティック画像合成のための新しい手法を提案する。
1つのベースイメージジェネレータと複数のクラス固有のジェネレータで構成される。
実験により,本手法は高解像度で高品質な画像を生成することができることが示された。
論文 参考訳(メタデータ) (2021-10-08T17:46:56Z) - Searching towards Class-Aware Generators for Conditional Generative
Adversarial Networks [132.29772160843825]
条件付き生成逆数ネットワーク(cGAN)は,その条件に基づいて画像を生成するように設計されている。
既存のメソッドは、すべてのクラスで同じ生成アーキテクチャを使っている。
本稿では,各クラスごとに異なるアーキテクチャを見つけるためにNASを採用する新しいアイデアを提案する。
論文 参考訳(メタデータ) (2020-06-25T07:05:28Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z) - OneGAN: Simultaneous Unsupervised Learning of Conditional Image
Generation, Foreground Segmentation, and Fine-Grained Clustering [100.32273175423146]
本研究では、教師なしの方法で、条件付き画像生成装置、前景抽出とセグメンテーション、オブジェクトの削除と背景補完を同時に学習する方法を提案する。
Geneversarative Adrial Network と Variational Auto-Encoder を組み合わせることで、複数のエンコーダ、ジェネレータ、ディスクリミネータを組み合わせ、全てのタスクを一度に解くことができる。
論文 参考訳(メタデータ) (2019-12-31T18:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。