論文の概要: HypDAE: Hyperbolic Diffusion Autoencoders for Hierarchical Few-shot Image Generation
- arxiv url: http://arxiv.org/abs/2411.17784v2
- Date: Fri, 05 Sep 2025 02:09:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.057774
- Title: HypDAE: Hyperbolic Diffusion Autoencoders for Hierarchical Few-shot Image Generation
- Title(参考訳): HypDAE:階層的なFewショット画像生成のための双曲拡散オートエンコーダ
- Authors: Lingxiao Li, Kaixuan Fan, Boqing Gong, Xiangyu Yue,
- Abstract要約: 少ないショット画像生成は、そのクラスでいくつか例を挙げると、目に見えないクラスに対して、多彩で高品質な画像を生成することを目的としている。
本稿では,双曲空間における画像間の階層的関係を抽出する新しい手法として,双曲拡散オートエンコーダ(HypDAE)を提案する。
- 参考スコア(独自算出の注目度): 32.16985870309231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-shot image generation aims to generate diverse and high-quality images for an unseen class given only a few examples in that class. A key challenge in this task is balancing category consistency and image diversity, which often compete with each other. Moreover, existing methods offer limited control over the attributes of newly generated images. In this work, we propose Hyperbolic Diffusion Autoencoders (HypDAE), a novel approach that operates in hyperbolic space to capture hierarchical relationships among images from seen categories. By leveraging pre-trained foundation models, HypDAE generates diverse new images for unseen categories with exceptional quality by varying stochastic subcodes or semantic codes. Most importantly, the hyperbolic representation introduces an additional degree of control over semantic diversity through the adjustment of radii within the hyperbolic disk. Extensive experiments and visualizations demonstrate that HypDAE significantly outperforms prior methods by achieving a better balance between preserving category-relevant features and promoting image diversity with limited data. Furthermore, HypDAE offers a highly controllable and interpretable generation process.
- Abstract(参考訳): 少ないショット画像生成は、そのクラスでいくつか例を挙げると、目に見えないクラスに対して、多彩で高品質な画像を生成することを目的としている。
このタスクにおける重要な課題は、カテゴリの一貫性と画像の多様性のバランスです。
さらに、既存の手法は、新たに生成された画像の属性を限定的に制御する。
本研究では,ハイパーボリック空間における画像間の階層的関係を抽出する手法として,ハイパーボリック拡散オートエンコーダ(HypDAE)を提案する。
事前訓練された基礎モデルを活用することで、HypDAEは、確率的なサブコードやセマンティックコードによって、異常な品質の未確認カテゴリのための多様な新しい画像を生成する。
最も重要なことは、双曲型表現は双曲型円盤内のラジイの調整を通じて、意味的多様性に対する追加的な制御を導入することである。
大規模な実験と可視化により、HypDAEは、カテゴリ関連特徴の保存と、限られたデータによる画像の多様性の促進のバランスを良くすることで、先行手法を著しく上回ることを示した。
さらに、HypDAEは高度に制御可能で解釈可能な生成プロセスを提供する。
関連論文リスト
- Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Gen-SIS: Generative Self-augmentation Improves Self-supervised Learning [52.170253590364545]
Gen-SISは、ラベルのない画像データにのみ訓練された拡散ベースの拡張技術である。
これらの自己増強、すなわちバニラSSLエンコーダの埋め込みに基づく生成増強は、より強力なSSLエンコーダのトレーニングを促進することを示す。
論文 参考訳(メタデータ) (2024-12-02T16:20:59Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - The Euclidean Space is Evil: Hyperbolic Attribute Editing for Few-shot
Image Generation [39.26386610133435]
本稿ではハイパーボリック属性編集(HAE)を提案する。
ユークリッド空間で機能する他の方法とは異なり、HAEは双曲空間で見られるカテゴリのデータを用いて画像の階層をキャプチャする。
実験と可視化により、HAEは、限られたデータを使用して、有望な品質と多様性を持つ画像を生成するだけでなく、高度に制御可能で解釈可能な編集プロセスを実現することができることを示した。
論文 参考訳(メタデータ) (2022-11-22T15:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。