論文の概要: HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion
- arxiv url: http://arxiv.org/abs/2605.15741v1
- Date: Fri, 15 May 2026 08:51:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.226978
- Title: HyperDiT: Hyper-Connected Transformers for High-Fidelity Pixel-Space Diffusion
- Title(参考訳): High-Fidelity Pixel-Space DiffusionのためのHyperDiT-Hyper-Connected Transformer
- Authors: Yu He, Lichen Ma, Zipeng Guo, Xinyuan Shan, Jingling Fu, Dong Chen, Junshi Huang, Yan Li,
- Abstract要約: HyperDiTはHyper-Connected Cross-Scale Interactionsを確立する統一フレームワークである。
細粒度ストリームとセマンティックガイダンスを組み合わせることで、HyperDiTは高忠実度画素生成に優れたパラダイムを提供する。
- 参考スコア(独自算出の注目度): 19.942149487828946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel-space diffusion models bypass the reconstruction bottleneck of Variational Autoencoders (VAEs) but face a fundamental "granularity dilemma": capturing global semantics favors large patch scales, while generating high-fidelity details demands fine-grained inputs. To address this issue, we propose HyperDiT, a unified framework establishing Hyper-Connected Cross-Scale Interactions to bridge the semantic and pixel manifold. Diverging from injecting semantics by AdaLN, HyperDiT utilizes Cross-Attention mechanisms, enabling fine-grained tokens to query multi-level semantic anchors globally. To resolve the spatial mismatch during multi-scale interactions, we introduce Scale-Aware Rotary Position Embedding (SA-RoPE) to ensure precise geometric alignment among tokens of varying patch sizes. Furthermore, we incorporate Registers to learn the dense semantics from a pretrained Visual Foundation Model (VFM), effectively reducing generation hallucination and artifacts. Extensive experiments demonstrate that HyperDiT achieves state-of-the-art (SoTA) FID of $\mathbf{1.56}$ on ImageNet $256\times256$ directly within the pixel space. By combining the fine-grained stream with semantic guidance, HyperDiT offers a superior paradigm for high-fidelity pixel generation.
- Abstract(参考訳): 画素空間拡散モデルは変分オートエンコーダ(VAE)の再構成ボトルネックをバイパスするが、大域的意味論の獲得は大きなパッチスケールを好んでおり、高忠実度の詳細を生成するにはきめ細かな入力が必要である。
本稿では,ハイパーコネクテッド・クロススケールインタラクションを確立する統一フレームワークであるHyperDiTを提案し,セマンティックおよびピクセル多様体をブリッジする。
AdaLNによるセマンティクスの注入から派生したHyperDiTは、クロスアテンション機構を使用して、細粒度トークンを使用して、世界中のマルチレベルセマンティクスアンカーをクエリする。
マルチスケールインタラクションにおける空間的ミスマッチを解決するため,SA-RoPE(Scale-Aware Rotary Position Embedding)を導入し,パッチサイズの異なるトークン間の正確な幾何的アライメントを確保する。
さらに、事前訓練されたVisual Foundation Model (VFM) から高密度なセマンティクスを学習するためにレジスターを組み込み、生成幻覚やアーティファクトを効果的に低減する。
大規模な実験により、HyperDiTはピクセル空間内で直接$\mathbf{1.56}$$256\times256$の最先端(SoTA)FIDを達成することが示された。
細粒度ストリームとセマンティックガイダンスを組み合わせることで、HyperDiTは高忠実度画素生成に優れたパラダイムを提供する。
関連論文リスト
- Deep Spatially-Regularized and Superpixel-Based Diffusion Learning for Unsupervised Hyperspectral Image Clustering [3.702642055407484]
ハイパースペクトル画像(HSI)クラスタリングのための教師なしフレームワークが提案されている。
拡散型クラスタリングを用いたマスク付き深層表現学習を提案する。
深部空間規則化スーパーピクセルベース拡散学習(DS2DL$)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-04-14T21:21:51Z) - Sparse Hypergraph-Enhanced Frame-Event Object Detection with Fine-Grained MoE [15.035274942751387]
高性能かつ効率的な検出フレームワークであるHyper-FEODを提案する。
S-HCF(Sparse Hypergraph-enhanced Cross-Modal Fusion)を紹介する。
第2に、異なる画像領域の多様な意味的要求に対応するために、FG-MoE拡張モジュールを設計する。
論文 参考訳(メタデータ) (2026-04-13T07:56:16Z) - Pixel-Perfect Depth with Semantics-Prompted Diffusion Transformers [45.701222598522456]
Pixel-Perfect Depthはピクセル空間拡散生成に基づく単眼深度推定モデルである。
本モデルは,5つのベンチマークにおいて,すべての生成モデルの中で最高の性能を達成している。
論文 参考訳(メタデータ) (2025-10-08T17:59:33Z) - PiT: Progressive Diffusion Transformer [50.46345527963736]
拡散変換器(DiT)は変換器アーキテクチャを用いて画像生成において顕著な性能を発揮する。
DiTは以前信じられていたようなグローバルな情報に大きく依存していない。
Pseudo Progressive Diffusion Transformer (PiT)を提案する。
論文 参考訳(メタデータ) (2025-05-19T15:02:33Z) - Multi-Scale Fusion for Object Representation [29.417271736114454]
画像をピクセルレベルの特徴マップではなく、オブジェクトレベルの特徴ベクトルとして表現することは、高度な視覚的タスクを促進する。
既存のVAEガイダンスは、オブジェクトがピクセルサイズで変更可能であることを明示的に言及していない。
対象中心学習訓練のためのVAEガイダンスを強化するために,textitMulti-Scale Fusion (MSF)を提案する。
論文 参考訳(メタデータ) (2024-10-02T13:29:45Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - HyperTransformer: A Textural and Spectral Feature Fusion Transformer for
Pansharpening [60.89777029184023]
Pansharpeningは、登録された高分解能パノクロマトグラフィー画像(PAN)と低分解能ハイパースペクトル画像(LR-HSI)を融合して、高スペクトル・空間解像度の高分解能HSIを生成することを目的としている。
既存のパンシャルペン法は、HRテクスチャの特徴をPANからLR-HSIに伝達するアテンション機構を無視し、空間的およびスペクトル的歪みをもたらす。
本稿では, LR-HSI と PAN の特徴をそれぞれ変換器のクエリとキーとして定式化する HyperTransformer という, パンシャーピングのための新しいアテンション機構を提案する。
論文 参考訳(メタデータ) (2022-03-04T18:59:08Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。