論文の概要: ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2512.01426v1
- Date: Mon, 01 Dec 2025 09:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.771279
- Title: ResDiT: Evoking the Intrinsic Resolution Scalability in Diffusion Transformers
- Title(参考訳): ResDiT: 拡散変換器の内在分解能拡張性を実現する
- Authors: Yiyang Ma, Feng Zhou, Xuedan Yin, Pu Cao, Yonghao Dang, Jianqin Yin,
- Abstract要約: 高分解能(HR)画像合成のための事前訓練拡散変換器(DiT)は、しばしば空間配置の崩壊と劣化したテクスチャの忠実度をもたらす。
本稿では,レゾリューションを効率的にスケールするトレーニングフリーな手法であるResDiTを提案する。
ResDiTは、高忠実で高解像度の画像合成を一貫して提供し、下流タスクとシームレスに統合することを示す。
- 参考スコア(独自算出の注目度): 19.979136263913198
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging pre-trained Diffusion Transformers (DiTs) for high-resolution (HR) image synthesis often leads to spatial layout collapse and degraded texture fidelity. Prior work mitigates these issues with complex pipelines that first perform a base-resolution (i.e., training-resolution) denoising process to guide HR generation. We instead explore the intrinsic generative mechanisms of DiTs and propose ResDiT, a training-free method that scales resolution efficiently. We identify the core factor governing spatial layout, position embeddings (PEs), and show that the original PEs encode incorrect positional information when extrapolated to HR, which triggers layout collapse. To address this, we introduce a PE scaling technique that rectifies positional encoding under resolution changes. To further remedy low-fidelity details, we develop a local-enhancement mechanism grounded in base-resolution local attention. We design a patch-level fusion module that aggregates global and local cues, together with a Gaussian-weighted splicing strategy that eliminates grid artifacts. Comprehensive evaluations demonstrate that ResDiT consistently delivers high-fidelity, high-resolution image synthesis and integrates seamlessly with downstream tasks, including spatially controlled generation.
- Abstract(参考訳): 高分解能(HR)画像合成にDiT(Pre-trained Diffusion Transformer)を利用すると、しばしば空間配置の崩壊と劣化したテクスチャの忠実度が生じる。
以前の作業ではこれらの問題を、HR生成を導くためのベースレゾリューション(トレーニングレゾリューション)デノケーションプロセスを実行する複雑なパイプラインで緩和する。
代わりに、本質的なDiT生成機構を探求し、効率よく解像度をスケールするトレーニング不要なResDiTを提案する。
空間配置, 位置埋め込み (PEs) を規定する中核要素を同定し, 元のPEがHRに外挿した場合に不正確な位置情報を符号化し, レイアウト崩壊を引き起こすことを示す。
そこで本研究では,解像度変化による位置エンコーディングの補正を行うPEスケーリング手法を提案する。
低忠実度の詳細をさらに改善するため,基本解像度の局所的注意を基盤とした局所強調機構を開発した。
我々は,グローバルおよびローカルなキューを集約するパッチレベルの融合モジュールを,グリッドアーティファクトを排除したガウス重み付きスプライシング戦略とともに設計する。
総合評価では、ResDiTは高忠実で高解像度の画像合成を一貫して提供し、空間的に制御された生成を含む下流タスクとシームレスに統合することを示した。
関連論文リスト
- Feedback Alignment Meets Low-Rank Manifolds: A Structured Recipe for Local Learning [7.034739490820967]
バックプロパゲーション(BP)を用いたディープニューラルネットワーク(DNN)のトレーニングは、最先端の精度を実現するが、大域的なエラー伝搬と完全なパラメータ化が必要である。
ダイレクトフィードバックアライメント(DFA)は、メモリ要件の低いローカルで並列化可能な更新を可能にする。
低ランク多様体上で直接動作する構造化局所学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T15:03:46Z) - Deep Equilibrium Convolutional Sparse Coding for Hyperspectral Image Denoising [16.405355853358202]
ハイパースペクトル画像(HSI)はリモートセンシングにおいて重要な役割を果たすが、複雑なノイズパターンによって劣化することが多い。
分解されたHSIの物理的特性の確保は、強靭なHSIの分解に不可欠であり、深層展開法が台頭する。
本研究では,局所的空間スペクトル相関,非局所的空間自己相似性,大域的空間一貫性を統一するDeep Equilibrium Convolutional Sparse Coding(DECSC)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:35:11Z) - Rotation Equivariant Arbitrary-scale Image Super-Resolution [62.41329042683779]
任意のスケールの超解像(ASISR)は、低解像度の入力画像から任意のスケールの高分解能回復を実現することを目的としている。
本研究では, 回転同変ASISR法の構築に尽力する。
論文 参考訳(メタデータ) (2025-08-07T08:51:03Z) - Progressive Alignment Degradation Learning for Pansharpening [3.7939736380306552]
深層学習に基づくパンシャーピングにより,高分解能マルチスペクトル画像(HRMS)を効果的に生成できることが示されている。
Waldプロトコルは、人工低解像度データで訓練されたネットワークが、高解像度データでも同じように機能すると仮定する。
本稿では,PAlignNetとPDegradeNetという2つのサブネットワーク間の相互イテレーションを用いて,正確な劣化過程を適応的に学習するPADMを提案する。
論文 参考訳(メタデータ) (2025-06-25T07:07:32Z) - Enhanced Super-Resolution Training via Mimicked Alignment for Real-World Scenes [51.92255321684027]
トレーニング中、LR入力とHR画像の整列により、誤調整問題を緩和する新しいプラグアンドプレイモジュールを提案する。
具体的には,従来のLR試料の特徴を保ちながらHRと整合する新しいLR試料を模倣する。
本手法を合成および実世界のデータセット上で総合的に評価し,SRモデルのスペクトル間での有効性を実証した。
論文 参考訳(メタデータ) (2024-10-07T18:18:54Z) - HQDec: Self-Supervised Monocular Depth Estimation Based on a
High-Quality Decoder [14.67433946077953]
シーン深度を復元する高品質デコーダ(HQDec)を提案する。
コードとモデルはhrefhttps://github.com/fwucas/HQDecHQDec.comで公開される。
論文 参考訳(メタデータ) (2023-05-30T03:03:11Z) - Recursive Generalization Transformer for Image Super-Resolution [108.67898547357127]
本稿では,大域空間情報を捕捉し,高分解能画像に適した画像SRのための再帰一般化変換器(RGT)を提案する。
我々は,RG-SAと局所的自己意識を組み合わせることで,グローバルな文脈の活用を促進する。
我々のRGTは最近の最先端の手法よりも定量的に質的に優れている。
論文 参考訳(メタデータ) (2023-03-11T10:44:44Z) - Deep Generative Adversarial Residual Convolutional Networks for
Real-World Super-Resolution [31.934084942626257]
我々は,超解像残差畳み込み生成共役ネットワーク(SRResCGAN)を提案する。
これは、生成したLRドメインからHRドメインの画素単位の監督でモデルを逆トレーニングすることで、現実世界の劣化設定に従う。
提案するネットワークは,画像の高精細化と凸最適化によるエネルギーベース目的関数の最小化により,残差学習を利用する。
論文 参考訳(メタデータ) (2020-05-03T00:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。