論文の概要: Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention
- arxiv url: http://arxiv.org/abs/2510.16325v1
- Date: Sat, 18 Oct 2025 03:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.947245
- Title: Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention
- Title(参考訳): Scale-DiT:階層的局所注意による超高分解能画像生成
- Authors: Yuyao Zhang, Yu-Wing Tai,
- Abstract要約: Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
- 参考スコア(独自算出の注目度): 50.391914489898774
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ultra-high-resolution text-to-image generation demands both fine-grained texture synthesis and globally coherent structure, yet current diffusion models remain constrained to sub-$1K \times 1K$ resolutions due to the prohibitive quadratic complexity of attention and the scarcity of native $4K$ training data. We present \textbf{Scale-DiT}, a new diffusion framework that introduces hierarchical local attention with low-resolution global guidance, enabling efficient, scalable, and semantically coherent image synthesis at ultra-high resolutions. Specifically, high-resolution latents are divided into fixed-size local windows to reduce attention complexity from quadratic to near-linear, while a low-resolution latent equipped with scaled positional anchors injects global semantics. A lightweight LoRA adaptation bridges global and local pathways during denoising, ensuring consistency across structure and detail. To maximize inference efficiency, we repermute token sequence in Hilbert curve order and implement a fused-kernel for skipping masked operations, resulting in a GPU-friendly design. Extensive experiments demonstrate that Scale-DiT achieves more than $2\times$ faster inference and lower memory usage compared to dense attention baselines, while reliably scaling to $4K \times 4K$ resolution without requiring additional high-resolution training data. On both quantitative benchmarks (FID, IS, CLIP Score) and qualitative comparisons, Scale-DiT delivers superior global coherence and sharper local detail, matching or outperforming state-of-the-art methods that rely on native 4K training. Taken together, these results highlight hierarchical local attention with guided low-resolution anchors as a promising and effective approach for advancing ultra-high-resolution image generation.
- Abstract(参考訳): 超高精細なテクスチャ合成とグローバルコヒーレント構造の両方を必要とするが、現在の拡散モデルは、注意の2次複雑さの禁止と4Kドルのネイティブトレーニングデータの不足により、1K以下の時間に制限されている。
我々は,高解像度で効率よく,スケーラブルで,セマンティックに一貫性のある画像合成を可能にする,階層的局所的注意を低解像度で導入する新しい拡散フレームワークである「textbf{Scale-DiT}」を提案する。
具体的には、高分解能な潜伏剤を固定サイズの局所窓に分割して、注意の複雑さを2次からほぼ直線に減らし、また、スケールされた位置アンカーを備えた低分解能な潜伏剤は、大域的な意味論を注入する。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
推論効率を最大化するために,Hilbert曲線の順序でトークン列を再実行し,マスク操作をスキップするための融合カーネルを実装し,GPUフレンドリな設計を実現した。
大規模な実験によると、Scale-DiTは、高解像度のトレーニングデータを必要とせずに、4K \times 4K $ resolutionに確実にスケーリングしながら、より高速な推論とメモリ使用量の削減を実現している。
定量的ベンチマーク(FID、IS、CLIP Score)と定性比較の両方で、Scale-DiTは、ネイティブ4Kトレーニングに依存する最先端の方法と、よりシャープなローカルディテールを提供する。
これらの結果は,超高分解能画像生成への有望かつ効果的なアプローチとして,低分解能アンカーを誘導した階層的局所的注意を浮き彫りにした。
関連論文リスト
- UltraGen: High-Resolution Video Generation with Hierarchical Attention [62.99161115650818]
UltraGenは、(i)効率的で(i)ネイティブな高解像度ビデオ合成を可能にする、新しいビデオ生成フレームワークである。
我々は,UltraGenが事前学習した低解像度ビデオモデルを1080P,さらに4K解像度に効果的に拡張できることを実証した。
論文 参考訳(メタデータ) (2025-10-21T16:23:21Z) - Dual-Stage Global and Local Feature Framework for Image Dehazing [7.536829470604261]
我々はStreamlined Global and Local Features Combinator(SGLC)と呼ばれる新しいフレームワークを提案する。
我々のアプローチは、Global Features Generator(GFG)とLocal Features Enhancer(LFE)の2つの主要コンポーネントで構成されています。
高分解能データセットによる実験結果から,SGLCを用いた場合のピーク信号-雑音比(PSNR)の大幅な改善が示された。
論文 参考訳(メタデータ) (2025-08-28T09:03:48Z) - Deep Equilibrium Convolutional Sparse Coding for Hyperspectral Image Denoising [16.405355853358202]
ハイパースペクトル画像(HSI)はリモートセンシングにおいて重要な役割を果たすが、複雑なノイズパターンによって劣化することが多い。
分解されたHSIの物理的特性の確保は、強靭なHSIの分解に不可欠であり、深層展開法が台頭する。
本研究では,局所的空間スペクトル相関,非局所的空間自己相似性,大域的空間一貫性を統一するDeep Equilibrium Convolutional Sparse Coding(DECSC)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-21T13:35:11Z) - Minimal High-Resolution Patches Are Sufficient for Whole Slide Image Representation via Cascaded Dual-Scale Reconstruction [13.897013242536849]
全スライディング画像(WSI)解析は、ギガピクセルスケールとわずかに分散した診断領域のため、依然として困難である。
本稿では,WSIあたりの平均9つの高解像度パッチだけが,スライドレベルの堅牢な表現に十分であることを示すカスケードデュアルスケール再構築フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-03T08:01:30Z) - A Global-Local Cross-Attention Network for Ultra-high Resolution Remote Sensing Image Semantic Segmentation [1.833928124984226]
GLCANetはUHRリモートセンシングのための軽量セグメンテーションフレームワークである。
セルフアテンションメカニズムは、長距離依存関係を強化し、グローバル機能を強化し、セマンティック一貫性を改善するためにローカル詳細を保存する。
マスク付きクロスアテンション機構は、グローバルローカルな特徴を適応的に融合させ、グローバルコンテキストを活用しながら細かな詳細を選択的に強化し、セグメンテーション精度を向上させる。
論文 参考訳(メタデータ) (2025-06-24T08:20:08Z) - C2D-ISR: Optimizing Attention-based Image Super-resolution from Continuous to Discrete Scales [6.700548615812325]
我々は、注目に基づく画像超解像モデルの最適化のための新しいフレームワーク、textbfC2D-ISRを提案する。
このアプローチは、2段階のトレーニング手法と階層的なエンコーディング機構に基づいている。
さらに,既存のアテンションベースネットワーク構造を用いて階層符号化機構を一般化する。
論文 参考訳(メタデータ) (2025-03-17T21:52:18Z) - HiPrompt: Tuning-free Higher-Resolution Generation with Hierarchical MLLM Prompts [77.62320553269615]
HiPromptは高解像度画像生成のためのチューニング不要のソリューションである。
階層的なプロンプトは グローバルとローカルの両方のガイダンスを提供する
生成された画像は、高定義のコヒーレントな局所的および大域的意味論、構造、テクスチャを保持する。
論文 参考訳(メタデータ) (2024-09-04T17:58:08Z) - Low Light Image Enhancement via Global and Local Context Modeling [164.85287246243956]
低照度画像強調のためのコンテキスト認識ディープネットワークを導入。
まず、全空間領域上の補完的な手がかりを見つけるために空間相関をモデル化するグローバルコンテキストモジュールを特徴とする。
第二に、比較的大きな受容フィールドで局所的なコンテキストをキャプチャする密な残留ブロックを導入する。
論文 参考訳(メタデータ) (2021-01-04T09:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。