論文の概要: EFDiT: Efficient Fine-grained Image Generation Using Diffusion Transformer Models
- arxiv url: http://arxiv.org/abs/2512.05152v1
- Date: Wed, 03 Dec 2025 14:10:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.760452
- Title: EFDiT: Efficient Fine-grained Image Generation Using Diffusion Transformer Models
- Title(参考訳): EFDiT:拡散変圧器モデルを用いた高精細画像生成
- Authors: Kun Wang, Donglin Di, Tonghua Su, Lei Fan,
- Abstract要約: 大規模なきめ細かな画像生成では、意味情報の絡み合いと詳細性の不足の問題が続いている。
我々は,スーパークラスとチャイルドクラスの両方のセマンティック情報を統合した,きめ細かい画像生成におけるタイレッド埋め込みの概念を導入する。
本稿では,拡散モデルに効果的に実装可能な効率的なProAttention機構を提案する。
- 参考スコア(独自算出の注目度): 9.95860304505597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models are highly regarded for their controllability and the diversity of images they generate. However, class-conditional generation methods based on diffusion models often focus on more common categories. In large-scale fine-grained image generation, issues of semantic information entanglement and insufficient detail in the generated images still persist. This paper attempts to introduce a concept of a tiered embedder in fine-grained image generation, which integrates semantic information from both super and child classes, allowing the diffusion model to better incorporate semantic information and address the issue of semantic entanglement. To address the issue of insufficient detail in fine-grained images, we introduce the concept of super-resolution during the perceptual information generation stage, enhancing the detailed features of fine-grained images through enhancement and degradation models. Furthermore, we propose an efficient ProAttention mechanism that can be effectively implemented in the diffusion model. We evaluate our method through extensive experiments on public benchmarks, demonstrating that our approach outperforms other state-of-the-art fine-tuning methods in terms of performance.
- Abstract(参考訳): 拡散モデルは、その可制御性とそれらが生成する画像の多様性によって高く評価されている。
しかし、拡散モデルに基づくクラス条件生成法は、しばしばより一般的なカテゴリに焦点を当てる。
大規模なきめ細かい画像生成では, 意味情報の絡み合いや, 生成した画像の細部が不十分である。
本稿では,スーパークラスとチャイルドクラスの両方のセマンティック情報を統合し,セマンティック・エンタングルメントの問題に対処し,セマンティック・エンタングルメントをうまく組み込むための階層埋め込みの概念を導入することを試みる。
細粒度画像の細部が不十分な問題に対処するため, 知覚情報生成段階における超解像の概念を導入し, 精細度画像の詳細な特徴を強調・劣化モデルにより拡張する。
さらに,拡散モデルに効果的に実装可能な効率的なProAttention機構を提案する。
提案手法は,公開ベンチマークによる広範な実験により評価され,提案手法が他の最先端の微調整手法よりも性能的に優れていることを示す。
関連論文リスト
- G4Seg: Generation for Inexact Segmentation Refinement with Diffusion Models [38.44872934965588]
本稿では, 大規模テキスト・画像モデルを用いて不正確な拡散(IS)課題に取り組むことの問題点について考察する。
我々は,原画像とマスク条件生成画像とのパターンの相違を利用して,粗大なセグメント化改善を容易にする。
論文 参考訳(メタデータ) (2025-06-02T11:05:28Z) - Dataset Augmentation by Mixing Visual Concepts [3.5420134832331334]
本稿では,事前学習した拡散モデルの微調整によるデータセット拡張手法を提案する。
我々は、拡散モデルに実際の画像と新しいテキスト埋め込みを条件付けすることで適応する。
提案手法は,ベンチマーク分類タスクにおける最先端の強化手法より優れている。
論文 参考訳(メタデータ) (2024-12-19T19:42:22Z) - GenMix: Effective Data Augmentation with Generative Diffusion Model Image Editing [60.101097709212716]
本稿では、一般化可能なプロンプト誘導型生成データ拡張手法であるGenMixを紹介する。
本手法は、画像編集を利用して、カスタム条件付きプロンプトに基づく拡張画像を生成する。
提案手法は、非現実的な画像とラベルの曖昧さを緩和し、結果のモデルの性能と対角的堅牢性を向上する。
論文 参考訳(メタデータ) (2024-12-03T10:45:34Z) - Active Generation for Image Classification [45.93535669217115]
本稿では,モデルのニーズと特徴に着目し,画像生成の効率性に対処することを提案する。
能動学習の中心的傾向として,ActGenという手法が,画像生成のトレーニング・アウェア・アプローチを取り入れている。
論文 参考訳(メタデータ) (2024-03-11T08:45:31Z) - Steered Diffusion: A Generalized Framework for Plug-and-Play Conditional
Image Synthesis [62.07413805483241]
Steered Diffusionは、無条件生成のために訓練された拡散モデルを用いたゼロショット条件画像生成のためのフレームワークである。
塗装,着色,テキスト誘導セマンティック編集,画像超解像などのタスクに対して,ステアリング拡散を用いた実験を行った。
論文 参考訳(メタデータ) (2023-09-30T02:03:22Z) - Conditional Generation from Unconditional Diffusion Models using
Denoiser Representations [94.04631421741986]
本稿では,学習したデノイザネットワークの内部表現を用いて,事前学習した非条件拡散モデルを新しい条件に適用することを提案する。
提案手法により生成した合成画像を用いたTiny ImageNetトレーニングセットの強化により,ResNetベースラインの分類精度が最大8%向上することを示す。
論文 参考訳(メタデータ) (2023-06-02T20:09:57Z) - DDRF: Denoising Diffusion Model for Remote Sensing Image Fusion [7.06521373423708]
生成モデルとしてのデノシング拡散モデルは、画像生成の分野で多くの注目を集めている。
画像融合フィールドへの拡散モデルを導入し、画像融合タスクを画像から画像への変換として扱う。
本手法は,画像融合タスクに拡散モデルを適用するために,他の作業に刺激を与え,この分野の洞察を得ることができる。
論文 参考訳(メタデータ) (2023-04-10T12:28:27Z) - Your Diffusion Model is Secretly a Zero-Shot Classifier [90.40799216880342]
大規模テキスト・画像拡散モデルからの密度推定をゼロショット分類に活用できることを示す。
分類に対する我々の生成的アプローチは、様々なベンチマークで強い結果が得られる。
我々の結果は、下流タスクにおける差別的モデルよりも生成的な利用に向けての一歩である。
論文 参考訳(メタデータ) (2023-03-28T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。