論文の概要: TAGE: Trustworthy Attribute Group Editing for Stable Few-shot Image Generation
- arxiv url: http://arxiv.org/abs/2410.17855v1
- Date: Wed, 23 Oct 2024 13:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:03.670196
- Title: TAGE: Trustworthy Attribute Group Editing for Stable Few-shot Image Generation
- Title(参考訳): TAGE:安定した画像生成のための信頼できるアトリビュートグループ編集
- Authors: Ruicheng Zhang, Guoheng Huang, Yejing Huo, Xiaochen Yuan, Zhizhen Zhou, Xuhang Chen, Guo Zhong,
- Abstract要約: TAGEは3つの積分モジュールからなる革新的な画像生成ネットワークである。
CPMモジュールは、カテゴリに依存しない属性のセマンティックディメンションを掘り下げて、それらを個別のコードブックにカプセル化する。
PSMモジュールは、CPMのTransformerアーキテクチャにシームレスに統合されるセマンティックキューを生成する。
- 参考スコア(独自算出の注目度): 10.569380190029317
- License:
- Abstract: Generative Adversarial Networks (GANs) have emerged as a prominent research focus for image editing tasks, leveraging the powerful image generation capabilities of the GAN framework to produce remarkable results.However, prevailing approaches are contingent upon extensive training datasets and explicit supervision, presenting a significant challenge in manipulating the diverse attributes of new image classes with limited sample availability. To surmount this hurdle, we introduce TAGE, an innovative image generation network comprising three integral modules: the Codebook Learning Module (CLM), the Code Prediction Module (CPM) and the Prompt-driven Semantic Module (PSM). The CPM module delves into the semantic dimensions of category-agnostic attributes, encapsulating them within a discrete codebook. This module is predicated on the concept that images are assemblages of attributes, and thus, by editing these category-independent attributes, it is theoretically possible to generate images from unseen categories. Subsequently, the CPM module facilitates naturalistic image editing by predicting indices of category-independent attribute vectors within the codebook. Additionally, the PSM module generates semantic cues that are seamlessly integrated into the Transformer architecture of the CPM, enhancing the model's comprehension of the targeted attributes for editing. With these semantic cues, the model can generate images that accentuate desired attributes more prominently while maintaining the integrity of the original category, even with a limited number of samples. We have conducted extensive experiments utilizing the Animal Faces, Flowers, and VGGFaces datasets. The results of these experiments demonstrate that our proposed method not only achieves superior performance but also exhibits a high degree of stability when compared to other few-shot image generation techniques.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は、GANフレームワークの強力な画像生成機能を活用して、画像編集タスクの顕著な研究対象として現れ、優れた結果をもたらす。
このハードルを乗り越えるために、コードブック学習モジュール(CLM)、コード予測モジュール(CPM)、プロンプト駆動セマンティックモジュール(PSM)の3つの統合モジュールからなる革新的な画像生成ネットワークであるTAGEを紹介した。
CPMモジュールは、カテゴリに依存しない属性のセマンティックディメンションを掘り下げて、それらを個別のコードブックにカプセル化する。
このモジュールは、画像が属性の集合体であるという概念に基づいており、これらのカテゴリに依存しない属性を編集することにより、理論的には未知のカテゴリから画像を生成することができる。
その後、CPMモジュールは、コードブック内のカテゴリ非依存属性ベクトルのインデックスを予測することにより、自然な画像編集を容易にする。
さらに、PSMモジュールはCPMのTransformerアーキテクチャにシームレスに統合されたセマンティックキューを生成し、ターゲットとする属性の理解を深める。
これらの意味的手がかりにより、モデルは、限られたサンプル数であっても、元のカテゴリの整合性を維持しながら、望ましい属性をより顕著にアクセントする画像を生成することができる。
我々は,動物顔,花,VGGFacesデータセットを用いた広範囲な実験を行った。
これらの実験の結果,提案手法は優れた性能を得るだけでなく,他の数ショット画像生成技術と比較して高い安定性を示すことがわかった。
関連論文リスト
- Divide and Conquer: Language Models can Plan and Self-Correct for
Compositional Text-to-Image Generation [72.6168579583414]
CompAgentは、大規模な言語モデル(LLM)エージェントをコアとして、コンポジションテキスト・画像生成のためのトレーニング不要のアプローチである。
提案手法は,オープンワールド合成T2I生成のための総合的なベンチマークであるT2I-CompBenchに対して10%以上の改善を達成している。
論文 参考訳(メタデータ) (2024-01-28T16:18:39Z) - R-Cut: Enhancing Explainability in Vision Transformers with Relationship
Weighted Out and Cut [14.382326829600283]
リレーションウェイトアウト」と「カット」の2つのモジュールを紹介します。
Cut"モジュールは、位置、テクスチャ、色などの要素を考慮して、きめ細かい特徴分解を行う。
我々は,ImageNetデータセット上で定性的かつ定量的な実験を行い,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-07-18T08:03:51Z) - DiffuseGAE: Controllable and High-fidelity Image Manipulation from
Disentangled Representation [14.725538019917625]
拡散確率モデル (DPM) は様々な画像合成タスクにおいて顕著な結果を示した。
DPMには低次元、解釈可能、そしてよく分離された潜在コードがない。
自動符号化による表現学習におけるDPMの可能性を探るため,Diff-AEを提案する。
論文 参考訳(メタデータ) (2023-07-12T04:11:08Z) - Learning Structured Output Representations from Attributes using Deep
Conditional Generative Models [0.0]
本稿では,条件付き変分オートエンコーダアーキテクチャを再現し,属性を条件付き画像でトレーニングする。
毛髪の色や眼鏡などの特徴の異なる新しい顔と、異なる鳥類種のサンプルを創り出そうとする。
論文 参考訳(メタデータ) (2023-04-30T17:25:31Z) - Stable Attribute Group Editing for Reliable Few-shot Image Generation [88.59350889410794]
本稿では,編集ベースのフレームワークであるAttribute Group Editing (AGE) について述べる。
下流分類におけるGAN生成画像では,クラス不整合が一般的な問題であることがわかった。
我々は,SAGEの下流分類性能を,画素および周波数成分の増大により向上させることを提案する。
論文 参考訳(メタデータ) (2023-02-01T01:51:47Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Attribute Group Editing for Reliable Few-shot Image Generation [85.52840521454411]
本稿では,画像生成のための新しい編集手法,すなわちAttribute Group Editing (AGE)を提案する。
AGEは、GANで学んだ内部表現を調べ、意味的に意味のある方向を識別する。
論文 参考訳(メタデータ) (2022-03-16T06:54:09Z) - Meta Internal Learning [88.68276505511922]
単一画像生成のための内部学習は、単一の画像に基づいて新しい画像を生成するようにジェネレータを訓練するフレームワークである。
本稿では,サンプル画像の内部統計をより効果的にモデル化するために,画像集合のトレーニングを可能にするメタラーニング手法を提案する。
以上の結果から, 得られたモデルは, 多数の共通画像アプリケーションにおいて, シングルイメージのGANと同程度に適していることがわかった。
論文 参考訳(メタデータ) (2021-10-06T16:27:38Z) - Generative Hierarchical Features from Synthesizing Images [65.66756821069124]
画像合成の学習は、広範囲のアプリケーションにまたがって一般化可能な顕著な階層的な視覚的特徴をもたらす可能性があることを示す。
生成的階層的特徴(Generative Hierarchical Feature, GH-Feat)と呼ばれるエンコーダが生成する視覚的特徴は、生成的タスクと識別的タスクの両方に強い伝達性を有する。
論文 参考訳(メタデータ) (2020-07-20T18:04:14Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。