論文の概要: Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics
- arxiv url: http://arxiv.org/abs/2507.02748v1
- Date: Thu, 03 Jul 2025 16:05:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.580757
- Title: Linear Attention with Global Context: A Multipole Attention Mechanism for Vision and Physics
- Title(参考訳): グローバルコンテキストによるリニアアテンション:ビジョンと物理のための多極アテンション機構
- Authors: Alex Colagrande, Paul Caillon, Eva Feillet, Alexandre Allauzen,
- Abstract要約: 本稿では,マルチポール注意ニューラル演算子 (MANO) について紹介する。
我々は,MANOがViTやSwin Transformerといった最先端モデルと競合する一方で,実行時およびピークメモリ使用量を桁違いに削減していることを示す。
- 参考スコア(独自算出の注目度): 42.41787036246253
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Transformers have become the de facto standard for a wide range of tasks, from image classification to physics simulations. Despite their impressive performance, the quadratic complexity of standard Transformers in both memory and time with respect to the input length makes them impractical for processing high-resolution inputs. Therefore, several variants have been proposed, the most successful relying on patchification, downsampling, or coarsening techniques, often at the cost of losing the finest-scale details. In this work, we take a different approach. Inspired by state-of-the-art techniques in $n$-body numerical simulations, we cast attention as an interaction problem between grid points. We introduce the Multipole Attention Neural Operator (MANO), which computes attention in a distance-based multiscale fashion. MANO maintains, in each attention head, a global receptive field and achieves linear time and memory complexity with respect to the number of grid points. Empirical results on image classification and Darcy flows demonstrate that MANO rivals state-of-the-art models such as ViT and Swin Transformer, while reducing runtime and peak memory usage by orders of magnitude. We open source our code for reproducibility at https://github.com/AlexColagrande/MANO.
- Abstract(参考訳): トランスフォーマーは、画像分類から物理シミュレーションに至るまで、幅広いタスクのデファクトスタンダードとなっている。
優れた性能にもかかわらず、入力長に関してメモリと時間の両方で標準変換器の二次的な複雑さは、高精細な入力を処理するのに実用的ではない。
そのため、いくつかの変種が提案されており、最も成功したものはパッチ、ダウンサンプリング、粗大化技術であり、しばしば最も細かい詳細を紛失するコストがかかる。
この作業では、別のアプローチを取ります。
数値計算における最先端技術に触発され,格子点間の相互作用問題として注目された。
本稿では,マルチポール注意ニューラル演算子 (MANO) について紹介する。
MANOは、各注目ヘッドにおいて、グローバルな受容場を維持し、グリッドポイントの数に関して線形時間とメモリの複雑さを達成する。
画像分類とダーシーフローに関する実証的な結果は、MANOがViTやSwin Transformerのような最先端のモデルと競合し、実行時とピークメモリの使用量を桁違いに削減していることを示している。
再現性に関するコードはhttps://github.com/AlexColagrande/MANO.comで公開しています。
関連論文リスト
- Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。