論文の概要: D$^2$iT: Dynamic Diffusion Transformer for Accurate Image Generation
- arxiv url: http://arxiv.org/abs/2504.09454v1
- Date: Sun, 13 Apr 2025 06:33:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:08.674237
- Title: D$^2$iT: Dynamic Diffusion Transformer for Accurate Image Generation
- Title(参考訳): D$^2$iT: 高精度画像生成のための動的拡散変換器
- Authors: Weinan Jia, Mengqi Huang, Nan Chen, Lei Zhang, Zhendong Mao,
- Abstract要約: 大きな圧縮は局所的リアリズムを制限し、小さな圧縮は計算の複雑さを増大させ、グローバルな一貫性を損なう。
本稿では,異なる領域の重要性を認識し,画像領域を動的に圧縮する手法を提案する。
本稿では,画像生成の有効性と効率を高めるために,新しい2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.013437773962107
- License:
- Abstract: Diffusion models are widely recognized for their ability to generate high-fidelity images. Despite the excellent performance and scalability of the Diffusion Transformer (DiT) architecture, it applies fixed compression across different image regions during the diffusion process, disregarding the naturally varying information densities present in these regions. However, large compression leads to limited local realism, while small compression increases computational complexity and compromises global consistency, ultimately impacting the quality of generated images. To address these limitations, we propose dynamically compressing different image regions by recognizing the importance of different regions, and introduce a novel two-stage framework designed to enhance the effectiveness and efficiency of image generation: (1) Dynamic VAE (DVAE) at first stage employs a hierarchical encoder to encode different image regions at different downsampling rates, tailored to their specific information densities, thereby providing more accurate and natural latent codes for the diffusion process. (2) Dynamic Diffusion Transformer (D$^2$iT) at second stage generates images by predicting multi-grained noise, consisting of coarse-grained (less latent code in smooth regions) and fine-grained (more latent codes in detailed regions), through an novel combination of the Dynamic Grain Transformer and the Dynamic Content Transformer. The strategy of combining rough prediction of noise with detailed regions correction achieves a unification of global consistency and local realism. Comprehensive experiments on various generation tasks validate the effectiveness of our approach. Code will be released at https://github.com/jiawn-creator/Dynamic-DiT.
- Abstract(参考訳): 拡散モデルは高忠実度画像を生成する能力で広く認識されている。
Diffusion Transformer (DiT) アーキテクチャの優れた性能とスケーラビリティにもかかわらず、拡散過程中に異なる画像領域に一定の圧縮を適用し、これらの領域に存在する自然に変化する情報密度を無視する。
しかし、大きな圧縮は局所的リアリズムに制限を与えるが、小さな圧縮は計算複雑性を増大させ、大域的な一貫性を損なうため、最終的に生成された画像の品質に影響を及ぼす。
これらの制約に対処するため,各領域の重要性を認識して画像領域を動的に圧縮し,画像生成の有効性と効率を高めるために設計された新しい2段階のフレームワークを提案する。
2) 第二段階の動的拡散変換器(D$^2$iT)は, ダイナミックグライン変換器と動的コンテンツ変換器の新たな組み合わせにより, 粗粒(スムーズな領域では非潜時符号)と細粒(詳細領域ではより潜時符号)からなる多粒度ノイズを予測して画像を生成する。
ノイズの粗い予測と詳細な領域補正を組み合わせる戦略は,大域的一貫性と局所リアリズムの統一を実現する。
各種タスクの総合的な実験により,提案手法の有効性が検証された。
コードはhttps://github.com/jiawn-creator/Dynamic-DiT.comでリリースされる。
関連論文リスト
- Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers [55.87192133758051]
Diffusion Transformer (DiTs)は、最先端(SOTA)画像生成の品質を達成したが、レイテンシとメモリ非効率に悩まされている。
圧縮比の異なる動的DiT推論フレームワークであるDiffCRを提案する。
論文 参考訳(メタデータ) (2024-12-22T02:04:17Z) - Alignment-free HDR Deghosting with Semantics Consistent Transformer [76.91669741684173]
高ダイナミックレンジイメージングは、複数の低ダイナミックレンジ入力から情報を取得し、リアルな出力を生成することを目的としている。
既存の手法では、前景やカメラの動きによって引き起こされる入力フレーム間の空間的ずれに焦点を当てることが多い。
本研究では,SCTNet(Semantics Consistent Transformer)を用いたアライメントフリーネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:03:23Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z) - Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。
本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-30T14:58:03Z) - Generalized Octave Convolutions for Learned Multi-Frequency Image
Compression [20.504561050200365]
本稿では,初めて学習されたマルチ周波数画像圧縮とエントロピー符号化手法を提案する。
これは最近開発されたオクターブの畳み込みに基づいて、潜水剤を高周波(高分解能)成分に分解する。
提案した一般化オクターブ畳み込みは、他のオートエンコーダベースのコンピュータビジョンタスクの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-24T01:35:29Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。