論文の概要: Attribute Group Editing for Reliable Few-shot Image Generation
- arxiv url: http://arxiv.org/abs/2203.08422v1
- Date: Wed, 16 Mar 2022 06:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 14:47:53.106674
- Title: Attribute Group Editing for Reliable Few-shot Image Generation
- Title(参考訳): 信頼性のある少数ショット画像生成のための属性グループ編集
- Authors: Guanqi Ding, Xinzhe Han, Shuhui Wang, Shuzhe Wu, Xin Jin, Dandan Tu
and Qingming Huang
- Abstract要約: 本稿では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。
AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。
- 参考スコア(独自算出の注目度): 85.52840521454411
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-shot image generation is a challenging task even using the
state-of-the-art Generative Adversarial Networks (GANs). Due to the unstable
GAN training process and the limited training data, the generated images are
often of low quality and low diversity. In this work, we propose a new
editing-based method, i.e., Attribute Group Editing (AGE), for few-shot image
generation. The basic assumption is that any image is a collection of
attributes and the editing direction for a specific attribute is shared across
all categories. AGE examines the internal representation learned in GANs and
identifies semantically meaningful directions. Specifically, the class
embedding, i.e., the mean vector of the latent codes from a specific category,
is used to represent the category-relevant attributes, and the
category-irrelevant attributes are learned globally by Sparse Dictionary
Learning on the difference between the sample embedding and the class
embedding. Given a GAN well trained on seen categories, diverse images of
unseen categories can be synthesized through editing category-irrelevant
attributes while keeping category-relevant attributes unchanged. Without
re-training the GAN, AGE is capable of not only producing more realistic and
diverse images for downstream visual applications with limited data but
achieving controllable image editing with interpretable category-irrelevant
directions.
- Abstract(参考訳): 最先端のGAN(Generative Adversarial Networks)を使っても、画像生成は難しい作業である。
不安定なGANトレーニングプロセスと限られたトレーニングデータのため、生成された画像は品質が低く、多様性が低いことが多い。
本研究では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。
基本的な仮定は、任意の画像は属性の集まりであり、特定の属性の編集方向はすべてのカテゴリで共有されるということである。
AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。
具体的には、特定のカテゴリからの潜伏符号の平均ベクトルであるクラス埋め込みを用いてカテゴリ関連属性を表現し、サンプル埋め込みとクラス埋め込みの差について、カテゴリ関連属性をスパース辞書学習によりグローバルに学習する。
GANがよく訓練されていると、カテゴリ関連属性を編集し、カテゴリ関連属性をそのまま保持することで、目に見えないカテゴリの多様なイメージを合成することができる。
GANを再トレーニングすることなく、AGEは、限られたデータを持つ下流視覚アプリケーションのためのより現実的で多様な画像を生成するだけでなく、解釈可能なカテゴリ非関連方向による制御可能な画像編集を実現することができる。
関連論文リスト
- TAGE: Trustworthy Attribute Group Editing for Stable Few-shot Image Generation [10.569380190029317]
TAGEは3つの積分モジュールからなる革新的な画像生成ネットワークである。
CPMモジュールは、カテゴリに依存しない属性のセマンティックディメンションを掘り下げて、それらを個別のコードブックにカプセル化する。
PSMモジュールは、CPMのTransformerアーキテクチャにシームレスに統合されるセマンティックキューを生成する。
論文 参考訳(メタデータ) (2024-10-23T13:26:19Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Stable Attribute Group Editing for Reliable Few-shot Image Generation [88.59350889410794]
本稿では,編集ベースのフレームワークであるAttribute Group Editing (AGE) について述べる。
下流分類におけるGAN生成画像では,クラス不整合が一般的な問題であることがわかった。
我々は,SAGEの下流分類性能を,画素および周波数成分の増大により向上させることを提案する。
論文 参考訳(メタデータ) (2023-02-01T01:51:47Z) - Leveraging Off-the-shelf Diffusion Model for Multi-attribute Fashion
Image Manipulation [27.587905673112473]
ファッション属性編集は、無関係な領域を保存しながら、所定のファッション画像の意味的属性を変換することを目的としたタスクである。
以前の作業では、ジェネレータがターゲット属性を明示的に学習し、変換を直接実行する条件付きGANを使用していた。
画像ネットのような一般的な視覚的セマンティクスに基づいて事前訓練されたオフザシェルフ拡散モデルを利用する分類器誘導拡散について検討する。
論文 参考訳(メタデータ) (2022-10-12T02:21:18Z) - Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。
クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-04T02:25:40Z) - Explaining in Style: Training a GAN to explain a classifier in
StyleSpace [75.75927763429745]
本稿では,画像の意味的属性を説明するための生成モデルの学習法であるstylexを提案する。
StylExは、セマンティックとよく調和し、意味のある画像固有の説明を生成し、人間に解釈できる属性を見つけます。
その結果,この手法はセマンティックとよく一致し,意味のある画像特異的な説明を生成し,人間と解釈できる属性を見出した。
論文 参考訳(メタデータ) (2021-04-27T17:57:19Z) - Multi-class Generative Adversarial Nets for Semi-supervised Image
Classification [0.17404865362620794]
類似した画像がGANを一般化させ、画像の分類が貧弱になることを示す。
半教師付き学習フレームワークにおいて、画像の類似クラスにおけるマルチクラス分類を改善するため、GANの従来の訓練の修正を提案する。
論文 参考訳(メタデータ) (2021-02-13T15:26:17Z) - SMILE: Semantically-guided Multi-attribute Image and Layout Editing [154.69452301122175]
GAN(Generative Adversarial Networks)の導入以来、属性画像操作は非常に活発な話題となっている。
対象領域の下位領域情報のみを使用しながら、ランダムノイズや画像によって誘導される全ての属性を処理するマルチモーダル表現を提案する。
本手法では,イメージを参照として,あるいはスタイル分布空間を探索することにより,細粒度や粗粒度などの属性の追加,削除,変更を行うことができる。
論文 参考訳(メタデータ) (2020-10-05T20:15:21Z) - Realizing Pixel-Level Semantic Learning in Complex Driving Scenes based
on Only One Annotated Pixel per Class [17.481116352112682]
本稿では,複雑な運転シーン下でのセマンティックセマンティックセマンティクスタスクを提案する。
3段階のプロセスは擬似ラベル生成のために構築され、各カテゴリに最適な特徴表現を徐々に実装する。
Cityscapesデータセットの実験は、提案手法が弱教師付きセマンティックセマンティックセマンティクスタスクを解決するための実現可能な方法であることを示した。
論文 参考訳(メタデータ) (2020-03-10T12:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。