論文の概要: Hilbert-Guided Block-Sparse Local Attention
- arxiv url: http://arxiv.org/abs/2511.05832v1
- Date: Sat, 08 Nov 2025 03:43:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.60602
- Title: Hilbert-Guided Block-Sparse Local Attention
- Title(参考訳): Hilbert-Guided Block-Sparse Local Attention
- Authors: Yunge Li, Lanyu Xu,
- Abstract要約: 局所的な注意は、近隣への注意を制限することによって複雑さを減少させる。
画像トークンは、まずヒルベルト曲線に沿って並べ替えられ、ウィンドウと近傍は、並べ替えられた1Dシーケンス上に形成される。
実験の結果、提案されているHilbert Window AttentionとHilbert Slide Attentionは、ウィンドウの注意を約4倍、スライドの注意を約18倍加速できることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The quadratic compute and memory costs of global self-attention severely limit its use in high-resolution images. Local attention reduces complexity by restricting attention to neighborhoods. Block-sparse kernels can further improve the efficiency of local attention, but conventional local attention patterns often fail to deliver significant speedups because tokens within a window are not contiguous in the 1D sequence. This work proposes a novel method for constructing windows and neighborhoods based on the Hilbert curve. Image tokens are first reordered along a Hilbert curve, and windows and neighborhoods are then formed on the reordered 1D sequence. From a block-sparse perspective, this strategy significantly increases block sparsity and can be combined with existing block-sparse kernels to improve the efficiency of 2D local attention. Experiments show that the proposed Hilbert Window Attention and Hilbert Slide Attention can accelerate window attention and slide attention by about $4\times$ and $18\times$, respectively. To assess practicality, the strategy is instantiated as the Hilbert Window Transformer and the Hilbert Neighborhood Transformer, both of which achieve end-to-end speedups with minimal accuracy loss. Overall, combining Hilbert-guided local attention with block-sparse kernels offers a general and practical approach to enhancing the efficiency of 2D local attention for images. The code is available at https://github.com/Yunge6666/Hilbert-Local-Attention.
- Abstract(参考訳): グローバルな自己注意の二次計算とメモリコストは、高解像度画像における使用を著しく制限する。
局所的な注意は、近隣への注意を制限することによって複雑さを減少させる。
ブロックスパースカーネルは局所的な注意の効率をさらに向上させることができるが、従来の局所的な注意パターンは1Dシーケンスにおいて窓内のトークンが連続しないため、大きなスピードアップを達成できないことが多い。
本研究は, ヒルベルト曲線に基づいて, 窓と近傍を構築する新しい手法を提案する。
画像トークンは、まずヒルベルト曲線に沿って並べ替えられ、ウィンドウと近傍は、並べ替えられた1Dシーケンス上に形成される。
ブロックスパースの観点から、この戦略はブロック空間を著しく増加させ、既存のブロックスパースカーネルと組み合わせることで、2Dローカルアテンションの効率を向上させることができる。
実験の結果、提案されているHilbert Window AttentionとHilbert Slide Attentionは、それぞれ4\times$と18\times$のウィンドウアテンションとスライドアテンションを加速できることがわかった。
実用性を評価するため、この戦略をHilbert Window TransformerとHilbert Neighborhood Transformerとしてインスタンス化する。
全体として、ヒルベルト誘導ローカルアテンションとブロックスパースカーネルを組み合わせることで、画像の2次元ローカルアテンションの効率を高めるための汎用的で実用的なアプローチを提供する。
コードはhttps://github.com/Yunge6666/Hilbert-Local-Attentionで公開されている。
関連論文リスト
- HilbertA: Hilbert Attention for Image Generation with Diffusion Models [9.90114621118598]
2次元認識とGPU効率のスパースアテンション機構であるHilbertAを提案する。
HilbertAはHilbert曲線に沿って画像トークンを並べ替え、空間的近傍を保存しながら連続したメモリレイアウトを実現する。
HilbertAは1024ドル、1024ドル、2048ドルで最大4.17ドル、ベースラインに匹敵する画像品質を実現している。
論文 参考訳(メタデータ) (2025-09-30T17:13:22Z) - NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.212836834889146]
本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。
具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。
記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文 参考訳(メタデータ) (2025-03-08T08:04:27Z) - Faster Neighborhood Attention: Reducing the O(n^2) Cost of Self Attention at the Threadblock Level [30.681204292813998]
近隣の注意は、それぞれのトークンの注意を隣人に限定することで、自己注意のコストを減少させる。
我々は,近隣の注意を,標準的な注意と同様のバッチGEMM問題として表すことができることを示した。
我々は、異なる空間軸をまたいだ注意をきめ細かく制御できる、融合したドット積アテンションカーネルを適応した、融合した近隣アテンションを開発する。
論文 参考訳(メタデータ) (2024-03-07T17:35:58Z) - BiFormer: Vision Transformer with Bi-Level Routing Attention [26.374724782056557]
本稿では,コンテンツ認識を伴う計算のより柔軟なアロケーションを実現するために,バイレベルルーティングによる新しい動的スパースアテンションを提案する。
具体的には、クエリにおいて、無関係なキー値対をまず粗い領域レベルでフィルタリングし、残った候補領域の結合にきめ細かなトークン対注意を適用する。
提案された双方向ルーティングアテンションによって構築され、BiFormerと呼ばれる新しい汎用ビジョントランスフォーマーが提示される。
論文 参考訳(メタデータ) (2023-03-15T17:58:46Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Rethinking the Zigzag Flattening for Image Reading [48.976491898131265]
我々はHilbert fractal flattening (HF) をコンピュータビジョンにおけるシーケンスオーダの別の方法として検討する。
HFは空間的局所性を維持する上で他の曲線よりも優れていることが証明されている。
ほとんどのディープニューラルネットワーク(DNN)に簡単に接続できる。
論文 参考訳(メタデータ) (2022-02-21T13:53:04Z) - Locally Shifted Attention With Early Global Integration [93.5766619842226]
本稿では,視覚変換器の初期層において,大域的相互作用と局所的相互作用の微粒化を可能にする手法を提案する。
CIFAR10, CIFAR100, ImageNetにおける画像分類において, 畳み込み法と変圧器法の両方よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T18:12:24Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Inter-Image Communication for Weakly Supervised Localization [77.2171924626778]
弱教師付きローカライゼーションは、画像レベルの監督のみを使用して対象対象領域を見つけることを目的としている。
我々は,より正確な物体位置を学習するために,異なる物体間の画素レベルの類似性を活用することを提案する。
ILSVRC検証セット上でトップ1のローカライズ誤差率45.17%を達成する。
論文 参考訳(メタデータ) (2020-08-12T04:14:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。