論文の概要: Boosting Resolution Generalization of Diffusion Transformers with Randomized Positional Encodings
- arxiv url: http://arxiv.org/abs/2503.18719v1
- Date: Mon, 24 Mar 2025 14:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:35:36.115969
- Title: Boosting Resolution Generalization of Diffusion Transformers with Randomized Positional Encodings
- Title(参考訳): ランダムな位置符号化による拡散変換器のブースティング分解能の一般化
- Authors: Cong Liu, Liang Hou, Mingwu Zheng, Xin Tao, Pengfei Wan, Di Zhang, Kun Gai,
- Abstract要約: そこで本稿では,画像パッチの位置順の学習に焦点をあてた2次元ランダム化位置符号化フレームワークを提案する。
具体的には、RPE-2Dは水平軸と垂直軸の両方に沿って広い範囲の位置を独立に選択し、全ての位置符号化が推論フェーズ中にトレーニングされることを保証する。
ImageNetデータセットでは,提案した RPE-2D は最先端の分解能一般化性能を達成し,既存の競合手法よりも256倍256$で,384倍384ドル,512倍512ドルで評価された。
- 参考スコア(独自算出の注目度): 27.46670809916215
- License:
- Abstract: Resolution generalization in image generation tasks enables the production of higher-resolution images with lower training resolution overhead. However, a significant challenge in resolution generalization, particularly in the widely used Diffusion Transformers, lies in the mismatch between the positional encodings encountered during testing and those used during training. While existing methods have employed techniques such as interpolation, extrapolation, or their combinations, none have fully resolved this issue. In this paper, we propose a novel two-dimensional randomized positional encodings (RPE-2D) framework that focuses on learning positional order of image patches instead of the specific distances between them, enabling seamless high- and low-resolution image generation without requiring high- and low-resolution image training. Specifically, RPE-2D independently selects positions over a broader range along both the horizontal and vertical axes, ensuring that all position encodings are trained during the inference phase, thus improving resolution generalization. Additionally, we propose a random data augmentation technique to enhance the modeling of position order. To address the issue of image cropping caused by the augmentation, we introduce corresponding micro-conditioning to enable the model to perceive the specific cropping patterns. On the ImageNet dataset, our proposed RPE-2D achieves state-of-the-art resolution generalization performance, outperforming existing competitive methods when trained at a resolution of $256 \times 256$ and inferred at $384 \times 384$ and $512 \times 512$, as well as when scaling from $512 \times 512$ to $768 \times 768$ and $1024 \times 1024$. And it also exhibits outstanding capabilities in low-resolution image generation, multi-stage training acceleration and multi-resolution inheritance.
- Abstract(参考訳): 画像生成タスクにおける解像度一般化により、トレーニング解像度のオーバーヘッドが低い高解像度画像の生成が可能になる。
しかし、特に広く使われている拡散変換器において、分解能の一般化における重要な課題は、テスト中に遭遇する位置エンコーディングと、トレーニング中に使用されるエンコーディングとのミスマッチにある。
既存の手法では補間、補間、あるいはそれらの組み合わせのような技法が採用されているが、この問題を完全に解決する者はいない。
本稿では,2次元ランダム化位置符号化(RPE-2D)フレームワークを提案する。このフレームワークは,画像パッチ間の距離ではなく,画像パッチの位置順を学習することに焦点を当て,高解像度・低解像度のイメージトレーニングを必要とせず,シームレスな高解像度・低解像度画像生成を可能にする。
具体的には、RPE-2Dは水平軸と垂直軸の両方に沿って広い範囲で位置を独立に選択し、全ての位置符号化が推論フェーズ中にトレーニングされることを保証し、分解能の一般化を改善する。
さらに、位置順のモデリングを強化するために、ランダムなデータ拡張手法を提案する。
増量による画像収穫の課題に対処するため, モデルが特定の収穫パターンを知覚できるように, 対応するマイクロコンディショニングを導入する。
ImageNetデータセットでは、提案したRPE-2Dは最先端の解像度の一般化性能を達成し、既存の競合手法よりも256 \times 256$でトレーニングされ、384 \times 384$と512 \times 512$で推論され、また512 \times 512$から768 \times 768$と1024 \times 1024$でスケーリングされる。
また、低解像度画像生成、マルチステージトレーニングアクセラレーション、マルチ解像度継承において優れた機能を示す。
関連論文リスト
- Zoomed In, Diffused Out: Towards Local Degradation-Aware Multi-Diffusion for Extreme Image Super-Resolution [8.69908615905782]
大規模で事前訓練されたテキスト・ツー・イメージ(T2I)拡散モデルが画像生成タスクで大きな人気を集めている。
既存のほとんどのT2I拡散モデルは解像度限界512x512で訓練されており、この解像度を超えるスケーリングは画像超解法(SR)にとって未解決だが必要な課題である。
本稿では,2K,4K,さらに8K画像も追加トレーニングなしで生成できる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-18T21:32:49Z) - FlowDCN: Exploring DCN-like Architectures for Fast Image Generation with Arbitrary Resolution [33.07779971446476]
任意の解像度で高画質画像を効率よく生成できる、純粋に畳み込みに基づく生成モデルであるFlowDCNを提案する。
FlowDCNは256Times256$ ImageNet Benchmarkと同等の解像度外挿結果で最先端の4.30 sFIDを実現している。
FlowDCNはスケーラブルで柔軟な画像合成のための有望なソリューションであると考えています。
論文 参考訳(メタデータ) (2024-10-30T02:48:50Z) - Hierarchical Patch Diffusion Models for High-Resolution Video Generation [50.42746357450949]
我々は,階層的な方法で,コンテキスト情報を低スケールから高スケールのパッチに伝播する深層文脈融合を開発する。
また,ネットワーク容量の増大と,粗い画像の細部への演算を行う適応計算を提案する。
得られたモデルは、クラス条件のビデオ生成において66.32の最先端FVDスコアと87.68のインセプションスコアを新たに設定する。
論文 参考訳(メタデータ) (2024-06-12T01:12:53Z) - DiM: Diffusion Mamba for Efficient High-Resolution Image Synthesis [56.849285913695184]
Diffusion Mamba (DiM) は高分解能画像合成のためのシーケンスモデルである。
DiMアーキテクチャは高解像度画像の推論時間効率を実現する。
実験は、我々のDiMの有効性と効率を実証する。
論文 参考訳(メタデータ) (2024-05-23T06:53:18Z) - ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with
Diffusion Models [126.35334860896373]
本研究では,事前学習した拡散モデルから,トレーニング画像サイズよりもはるかに高解像度で画像を生成する能力について検討する。
注意ベースや共同拡散アプローチのような、高分解能な生成のための既存の研究は、これらの問題にうまく対処できない。
本稿では,推論中の畳み込み知覚場を動的に調整できる簡易かつ効果的な再拡張法を提案する。
論文 参考訳(メタデータ) (2023-10-11T17:52:39Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Raising The Limit Of Image Rescaling Using Auxiliary Encoding [7.9700865143145485]
近年、IRNのような画像再スケーリングモデルは、INNの双方向性を利用して、画像アップスケーリングのパフォーマンス限界を押し上げている。
本稿では,画像再スケーリング性能の限界をさらに押し上げるために,補助符号化モジュールを提案する。
論文 参考訳(メタデータ) (2023-03-12T20:49:07Z) - Single pixel imaging at high pixel resolutions [0.0]
スパース画像に対して,DMDの解像度がわずか1秒しか持たないフル解像度の画像計測が可能であることを示す。
我々は,0.3ドルの時間内に,スパース画像を1024×768ドルの解像度で再構成できるサンプリング・再構成戦略を提案する。
論文 参考訳(メタデータ) (2022-06-06T11:44:43Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。