論文の概要: Diffusion Autoencoders for Few-shot Image Generation in Hyperbolic Space
- arxiv url: http://arxiv.org/abs/2411.17784v1
- Date: Wed, 27 Nov 2024 00:45:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:58.200906
- Title: Diffusion Autoencoders for Few-shot Image Generation in Hyperbolic Space
- Title(参考訳): 双曲空間におけるFew-shot画像生成のための拡散オートエンコーダ
- Authors: Lingxiao Li, Kaixuan Fan, Boqing Gong, Xiangyu Yue,
- Abstract要約: 少ないショット画像生成は、そのクラスでいくつか例を挙げると、目に見えないクラスに対して、多彩で高品質な画像を生成することを目的としている。
本稿では,画像とテキスト間の階層的関係を画像から捉えるために,双曲空間で動作する新しい手法として,双曲拡散オートエンコーダ(HypDAE)を提案する。
- 参考スコア(独自算出の注目度): 35.516111930052105
- License:
- Abstract: Few-shot image generation aims to generate diverse and high-quality images for an unseen class given only a few examples in that class. However, existing methods often suffer from a trade-off between image quality and diversity while offering limited control over the attributes of newly generated images. In this work, we propose Hyperbolic Diffusion Autoencoders (HypDAE), a novel approach that operates in hyperbolic space to capture hierarchical relationships among images and texts from seen categories. By leveraging pre-trained foundation models, HypDAE generates diverse new images for unseen categories with exceptional quality by varying semantic codes or guided by textual instructions. Most importantly, the hyperbolic representation introduces an additional degree of control over semantic diversity through the adjustment of radii within the hyperbolic disk. Extensive experiments and visualizations demonstrate that HypDAE significantly outperforms prior methods by achieving a superior balance between quality and diversity with limited data and offers a highly controllable and interpretable generation process.
- Abstract(参考訳): 少ないショット画像生成は、そのクラスでいくつか例を挙げると、目に見えないクラスに対して、多彩で高品質な画像を生成することを目的としている。
しかし、既存の手法は、画像の品質と多様性のトレードオフに悩まされ、新たに生成された画像の属性を限定的に制御する。
本研究では,ハイパーボリック空間における画像とテキスト間の階層的関係を抽出する手法として,ハイパーボリック拡散オートエンコーダ(HypDAE)を提案する。
事前訓練された基礎モデルを活用することで、HypDAEは、セマンティックコードの変更やテキスト命令によるガイドによって、異常な品質の未確認カテゴリのための多様な新しい画像を生成する。
最も重要なことは、双曲型表現は双曲型円盤内のラジイの調整を通じて、意味的多様性に対する追加的な制御を導入することである。
大規模な実験と可視化により、HypDAEは、限られたデータで品質と多様性のバランスの優れたバランスを達成し、高度に制御可能で解釈可能な生成プロセスを提供することで、従来の方法よりも大幅に優れていることが示されている。
関連論文リスト
- Discriminative Image Generation with Diffusion Models for Zero-Shot Learning [53.44301001173801]
ゼロショット学習のための新たな識別画像生成フレームワークであるDIG-ZSLを提案する。
我々は、事前学習されたカテゴリー識別モデル(CDM)の指導のもと、各未確認クラスの識別クラストークン(DCT)を学習する。
本稿では,4つのデータセットに対する広範な実験と可視化を行い,(1)多彩で高品質な画像を生成すること,(2)最先端の非人間アノテーション型セマンティックプロトタイプ手法を大きなマージンで上回ること,(3)人間アノテーションを利用したベースラインよりも同等あるいは優れた性能を実現すること,の4つが示される。
論文 参考訳(メタデータ) (2024-12-23T02:18:54Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Coarse-to-Fine Latent Diffusion for Pose-Guided Person Image Synthesis [65.7968515029306]
PGPIS(Pose-Guided Person Image Synthesis)のためのCFLD(Coarse-to-Fine Latent Diffusion)法を提案する。
認識修正デコーダは、学習可能なクエリの集合を段階的に洗練し、粗いプロンプトとして人物画像の意味的理解を抽出するように設計されている。
論文 参考訳(メタデータ) (2024-02-28T06:07:07Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - MultiDiffusion: Fusing Diffusion Paths for Controlled Image Generation [34.61940502872307]
MultiDiffusionは、汎用的で制御可能な画像生成を可能にする統一されたフレームワークである。
高品質で多様な画像を生成するために,MultiDiffusionが容易に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-02-16T06:28:29Z) - Effective Data Augmentation With Diffusion Models [65.09758931804478]
我々は、事前訓練されたテキスト・画像拡散モデルによりパラメータ化された画像・画像変換によるデータ拡張の多様性の欠如に対処する。
本手法は,市販の拡散モデルを用いて画像のセマンティクスを編集し,いくつかのラベル付き例から新しい視覚概念に一般化する。
本手法は,実世界の雑草認識タスクと数ショット画像分類タスクにおいて評価し,テスト領域における精度の向上を観察する。
論文 参考訳(メタデータ) (2023-02-07T20:42:28Z) - The Euclidean Space is Evil: Hyperbolic Attribute Editing for Few-shot
Image Generation [39.26386610133435]
本稿ではハイパーボリック属性編集(HAE)を提案する。
ユークリッド空間で機能する他の方法とは異なり、HAEは双曲空間で見られるカテゴリのデータを用いて画像の階層をキャプチャする。
実験と可視化により、HAEは、限られたデータを使用して、有望な品質と多様性を持つ画像を生成するだけでなく、高度に制御可能で解釈可能な編集プロセスを実現することができることを示した。
論文 参考訳(メタデータ) (2022-11-22T15:35:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。