論文の概要: DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
- arxiv url: http://arxiv.org/abs/2510.20766v1
- Date: Thu, 23 Oct 2025 17:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.440064
- Title: DyPE: Dynamic Position Extrapolation for Ultra High Resolution Diffusion
- Title(参考訳): DyPE:超高分解能拡散のための動的位置外挿法
- Authors: Noam Issachar, Guy Yariv, Sagie Benaim, Yossi Adi, Dani Lischinski, Raanan Fattal,
- Abstract要約: Dynamic Position Extrapolation (DyPE) は、事前トレーニングされた拡散変換器が、トレーニングデータを超える解像度で画像を合成できる訓練不要な方法である。
DyPEは、常に性能を改善し、超高解像度画像生成における最先端の忠実性を達成する。
- 参考スコア(独自算出の注目度): 47.810859531327374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Transformer models can generate images with remarkable fidelity and detail, yet training them at ultra-high resolutions remains extremely costly due to the self-attention mechanism's quadratic scaling with the number of image tokens. In this paper, we introduce Dynamic Position Extrapolation (DyPE), a novel, training-free method that enables pre-trained diffusion transformers to synthesize images at resolutions far beyond their training data, with no additional sampling cost. DyPE takes advantage of the spectral progression inherent to the diffusion process, where low-frequency structures converge early, while high-frequencies take more steps to resolve. Specifically, DyPE dynamically adjusts the model's positional encoding at each diffusion step, matching their frequency spectrum with the current stage of the generative process. This approach allows us to generate images at resolutions that exceed the training resolution dramatically, e.g., 16 million pixels using FLUX. On multiple benchmarks, DyPE consistently improves performance and achieves state-of-the-art fidelity in ultra-high-resolution image generation, with gains becoming even more pronounced at higher resolutions. Project page is available at https://noamissachar.github.io/DyPE/.
- Abstract(参考訳): 拡散トランスフォーマーモデルは、顕著な忠実さと細部を持つ画像を生成することができるが、画像トークン数による自己認識機構の2次スケーリングのため、超高解像度でのトレーニングは非常にコストがかかる。
本稿では,DyPE(Dynamic Position Extrapolation)について紹介する。DyPE(Dynamic Position Extrapolation)は,事前学習した拡散トランスフォーマーが,トレーニングデータを超える解像度で画像の合成を可能とし,追加のサンプリングコストを伴わない。
DyPEは拡散過程に固有のスペクトルの進行を生かし、低周波構造は早期に収束するが、高周波構造は分解により多くのステップを要す。
具体的には、DyPEは、各拡散ステップにおけるモデルの位置エンコーディングを動的に調整し、それらの周波数スペクトルと生成過程の現段階とを一致させる。
このアプローチにより、FLUXを用いて、トレーニング解像度を劇的に超える解像度で画像を生成することができる。
複数のベンチマークにおいて、DyPEはパフォーマンスを継続的に改善し、超高解像度の画像生成において最先端の忠実性を達成する。
プロジェクトページはhttps://noamissachar.github.io/DyPE/で公開されている。
関連論文リスト
- High-resolution Photo Enhancement in Real-time: A Laplacian Pyramid Network [73.19214585791268]
本稿では,LLF-LUT++と呼ばれるピラミッドネットワークについて紹介する。
具体的には,ダウンサンプリング画像のグローバル音節特性を活かした画像適応型3D LUTを利用する。
LLF-LUT++は、HDR+データセット上でPSNRが2.64dB改善されただけでなく、4K解像度の画像を1つのGPUでわずか13msで処理することで、さらに削減されている。
論文 参考訳(メタデータ) (2025-10-13T16:52:32Z) - InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis [51.81849724354083]
現在の拡散モデルでは、解像度で計算要求が2倍に増加し、4K画像生成が100秒以上遅れる。
本稿では, 任意の解像度画像を1ステップ生成器を用いて, コンパクトなラテントで復号する手法を提案する。
InfGenは、4K画像生成時間を10秒未満にカットしながら、任意の高解像度の時代に多くのモデルを改善することができる。
論文 参考訳(メタデータ) (2025-09-12T17:48:57Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - FreCaS: Efficient Higher-Resolution Image Generation via Frequency-aware Cascaded Sampling [13.275724439963188]
FreCaSはサンプリングプロセスをカスケードステージに分解し、徐々に分解能が向上する。
FreCaSは、画像の品質と生成速度において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2024-10-24T03:56:44Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - UltraPixel: Advancing Ultra-High-Resolution Image Synthesis to New Peaks [36.61645124563195]
カスケード拡散モデルを用いて高画質画像を複数解像度で生成する新しいアーキテクチャであるUltraPixelを提案する。
後半の認知段階における低分解能画像のセマンティクスに富んだ表現を用いて、高精細高分解能画像の全生成を導く。
我々のモデルは、データ要求を減らして高速なトレーニングを行い、フォトリアリスティックな高解像度画像を生成する。
論文 参考訳(メタデータ) (2024-07-02T11:02:19Z) - Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。
しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。
最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。
任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-03-15T12:45:40Z) - Make a Cheap Scaling: A Self-Cascade Diffusion Model for
Higher-Resolution Adaptation [112.08287900261898]
本稿では,高解像度画像への高速適応と映像生成のための新しい自己カスケード拡散モデルを提案する。
提案手法は5Xトレーニングの高速化を実現し,さらに0.002Mのチューニングパラメータしか必要としない。
実験により,提案手法は10kステップの微調整によって高速に高分解能画像やビデオ合成に適応できることを示した。
論文 参考訳(メタデータ) (2024-02-16T07:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。