論文の概要: HilbertA: Hilbert Attention for Image Generation with Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.26538v1
- Date: Tue, 30 Sep 2025 17:13:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.224455
- Title: HilbertA: Hilbert Attention for Image Generation with Diffusion Models
- Title(参考訳): HilbertA: 拡散モデルによる画像生成のためのHilbert Attention
- Authors: Shaoyi Zheng, Wenbo Lu, Yuxuan Xia, Haomin Liu, Shengjie Wang,
- Abstract要約: 2次元認識とGPU効率のスパースアテンション機構であるHilbertAを提案する。
HilbertAはHilbert曲線に沿って画像トークンを並べ替え、空間的近傍を保存しながら連続したメモリレイアウトを実現する。
HilbertAは1024ドル、1024ドル、2048ドルで最大4.17ドル、ベースラインに匹敵する画像品質を実現している。
- 参考スコア(独自算出の注目度): 9.90114621118598
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing sparse attention for diffusion transformers requires reconciling two-dimensional spatial locality with GPU efficiency, a trade-off that current methods struggle to achieve. Existing approaches enforce two-dimensional spatial locality but often incur uncoalesced memory access. We present HilbertA, a 2D-aware and GPU-efficient sparse attention mechanism. HilbertA reorders image tokens along Hilbert curves to achieve a contiguous memory layout while preserving spatial neighborhoods, and employs a sliding schedule across layers to enable long-range information propagation without repeated or uncoalesced memory access. To further enhance cross-tile communication and positional awareness, HilbertA introduces a small central shared region. Implemented in Triton, HilbertA delivers comparable image quality with significant acceleration over prior methods on Flux.1-dev, demonstrating the feasibility of hardware-aligned two-dimensional sparse attention for high-resolution image generation. HilbertA delivers attention speedups of $2.3\times$ when generating $1024\times 1024$ images, and up to $4.17\times$ at $2048\times 2048$, while achieving image quality comparable to or surpassing baselines.
- Abstract(参考訳): 拡散変圧器のスパースアテンションを設計するには、2次元空間的局所性をGPU効率と整合させる必要がある。
既存のアプローチは2次元の空間的局所性を強制するが、しばしば非結合メモリアクセスを引き起こす。
2次元認識とGPU効率のスパースアテンション機構であるHilbertAを提案する。
HilbertAは、Hilbert曲線に沿って画像トークンを並べ替えて、空間的近傍を保ちながら連続したメモリレイアウトを実現する。
クロスタイルコミュニケーションと位置認識をさらに強化するために、HilbertAは小さな中央共有領域を導入した。
トリトンで実装されたHilbertAは、Flux.1-devの以前の手法よりも大幅に高速化された画像品質を提供する。
HilbertAは1024ドル/1024ドル/2048ドル/2048ドル/4.17ドル/2024ドル/2024ドル/2024ドル/2024ドル/2048ドル/2024ドル/2024ドル/2024ドル/2048ドル/2024ドル/2024ドル/2048ドル/2024ドル/2024ドル/2048ドル/2024ドル/2048ドル/2024ドル/2048ドル/2024ドル/2048ドル/2048ドル/2048ドル/2048ドル/20。
関連論文リスト
- Autoregressive Image Generation with Linear Complexity: A Spatial-Aware Decay Perspective [47.87649021414188]
本稿では,線形複雑性を伴う空間コンテキストに選択的に注目する自己回帰画像生成装置LASADGenを提案する。
ImageNetの実験では、LASADGenは最先端の画像生成性能と計算効率を達成する。
論文 参考訳(メタデータ) (2025-07-02T12:27:06Z) - Anti-Aliased 2D Gaussian Splatting [6.430258446597413]
2次元ガウススティング(2DGS)は、新しいビュー合成と表面再構成のための有望な方法として登場した。
2DGSは、トレーニング中に使用するものと異なるサンプリングレートでレンダリングする際に、重いエイリアシングアーティファクトに悩まされる。
AA-2DGSは2次元ガウススプラッティングのアンチエイリアス化された定式化であり、その幾何学的利点を維持しつつ、異なるスケールにおける品質レンダリングを大幅に向上させる。
論文 参考訳(メタデータ) (2025-06-12T19:49:57Z) - Parallel Sequence Modeling via Generalized Spatial Propagation Network [80.66202109995726]
Generalized Spatial Propagation Network (GSPN)は、2次元空間構造を本質的にキャプチャする最適化された視覚タスクのための新しいアテンションメカニズムである。
GSPNは、空間的コヒーレントな画像データを直接操作し、ラインスキャンアプローチを通じて高密度なペアワイズ接続を形成することにより、制限を克服する。
GSPNは、ImageNet分類、クラス誘導画像生成、テキスト・ツー・イメージ生成などの視覚タスクにおいて、より優れた空間忠実性と最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-01-21T18:56:19Z) - MoGenTS: Motion Generation based on Spatial-Temporal Joint Modeling [32.81602976390584]
本研究では,2次元関節型VQVAE,時間空間型2次元マスキング技術,時空間型2次元アテンションを提案する2次元運動量子化フレームワークを構築した。
提案手法は,HumanML3DではFIDが26.6%,KIT-MLでは29.9%,従来の手法よりも大幅に向上した。
論文 参考訳(メタデータ) (2024-09-26T09:51:11Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Continuous percolation in a Hilbert space for a large system of qubits [58.720142291102135]
パーコレーション遷移は無限クラスターの出現によって定義される。
ヒルベルト空間の指数的に増加する次元性は、有限サイズの超球面による被覆を非効率にすることを示す。
コンパクトな距離空間におけるパーコレーション遷移への我々のアプローチは、他の文脈での厳密な処理に有用である。
論文 参考訳(メタデータ) (2022-10-15T13:53:21Z) - Memory transformers for full context and high-resolution 3D Medical
Segmentation [76.93387214103863]
本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの基本的な考え方は、メモリトークンを学習して、フルレンジインタラクションを間接的にモデル化することだ。
BCV画像セグメンテーションデータセットの実験は、最先端のCNNやトランスフォーマーベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-10-11T10:11:05Z) - Rethinking the Zigzag Flattening for Image Reading [48.976491898131265]
我々はHilbert fractal flattening (HF) をコンピュータビジョンにおけるシーケンスオーダの別の方法として検討する。
HFは空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。
論文 参考訳(メタデータ) (2022-02-21T13:53:04Z) - Hilbert curve vs Hilbert space: exploiting fractal 2D covering to
increase tensor network efficiency [1.2314765641075438]
本稿では2次元多体量子システムの研究のための新しいマッピングを提案する。
特に,2次元格子から1次元鎖への効率的な写像を選択する問題に対処する。
ヒルベルト曲線の局所性保存特性が数値的精度の向上につながることを示す。
論文 参考訳(メタデータ) (2021-05-05T18:00:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。