論文の概要: Learning Spatial Decay for Vision Transformers
- arxiv url: http://arxiv.org/abs/2508.09525v1
- Date: Wed, 13 Aug 2025 06:18:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.777917
- Title: Learning Spatial Decay for Vision Transformers
- Title(参考訳): 視覚変換器における空間劣化の学習
- Authors: Yuxin Mao, Zhen Qin, Jinxing Zhou, Bin Fan, Jing Zhang, Yiran Zhong, Yuchao Dai,
- Abstract要約: 視覚変換器(ViT)はコンピュータビジョンに革命をもたらしたが、その自己認識機構には明らかに空間誘導バイアスがない。
既存のアプローチでは、固定距離メトリクスに基づくデータ非依存の空間減衰が導入されている。
データ依存型空間減衰の2次元視覚変換器への適応が最初に成功した例を示す。
- 参考スコア(独自算出の注目度): 50.63391799053993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have revolutionized computer vision, yet their self-attention mechanism lacks explicit spatial inductive biases, leading to suboptimal performance on spatially-structured tasks. Existing approaches introduce data-independent spatial decay based on fixed distance metrics, applying uniform attention weighting regardless of image content and limiting adaptability to diverse visual scenarios. Inspired by recent advances in large language models where content-aware gating mechanisms (e.g., GLA, HGRN2, FOX) significantly outperform static alternatives, we present the first successful adaptation of data-dependent spatial decay to 2D vision transformers. We introduce \textbf{Spatial Decay Transformer (SDT)}, featuring a novel Context-Aware Gating (CAG) mechanism that generates dynamic, data-dependent decay for patch interactions. Our approach learns to modulate spatial attention based on both content relevance and spatial proximity. We address the fundamental challenge of 1D-to-2D adaptation through a unified spatial-content fusion framework that integrates manhattan distance-based spatial priors with learned content representations. Extensive experiments on ImageNet-1K classification and generation tasks demonstrate consistent improvements over strong baselines. Our work establishes data-dependent spatial decay as a new paradigm for enhancing spatial attention in vision transformers.
- Abstract(参考訳): 視覚変換器(ViT)はコンピュータビジョンに革命をもたらしたが、その自己認識機構は明らかに空間的帰納バイアスを欠き、空間的に構造化されたタスクに対する準最適性能をもたらす。
既存のアプローチでは、固定距離の測定値に基づくデータ非依存の空間減衰を導入し、画像の内容に関わらず均一な注意重み付けを適用し、多様な視覚シナリオへの適応性を制限している。
コンテンツ認識ゲーティング機構(例えば、GLA、HGRN2、FOX)が静的な代替よりも優れる大規模言語モデルの最近の進歩に触発され、2次元視覚変換器へのデータ依存空間減衰の適応が最初に成功した。
本稿では,パッチ間相互作用に対して動的にデータ依存の減衰を生成する新しいコンテキスト認識ゲーティング(CAG)機構を特徴とする,SDT(textbf{Spatial Decay Transformer)を導入する。
提案手法は,コンテンツ関連性と空間的近接性の両方に基づいて空間的注意を変調することを学ぶ。
本研究では,マンハッタン距離に基づく空間先行情報と学習内容表現を統合した空間コンテンツ融合フレームワークによる1次元から2次元への適応の基本的な課題に対処する。
ImageNet-1K分類と生成タスクに関する大規模な実験は、強いベースラインよりも一貫した改善を示している。
我々の研究は、視覚変換器における空間的注意を高めるための新しいパラダイムとして、データ依存空間減衰を確立している。
関連論文リスト
- Autoregressive Image Generation with Linear Complexity: A Spatial-Aware Decay Perspective [47.87649021414188]
本稿では,線形複雑性を伴う空間コンテキストに選択的に注目する自己回帰画像生成装置LASADGenを提案する。
ImageNetの実験では、LASADGenは最先端の画像生成性能と計算効率を達成する。
論文 参考訳(メタデータ) (2025-07-02T12:27:06Z) - SEM: Enhancing Spatial Understanding for Robust Robot Manipulation [13.620151960111764]
SEM(Spatial Enhanced Manipulation model)は,2つの相補的視点から空間的理解を高める拡散型政策フレームワークである。
空間エンハンサーは3次元幾何学的文脈で視覚表現を増強する一方、ロボット状態エンコーダは、グラフベースの関節依存のモデリングにより、エンボディメント認識構造をキャプチャする。
論文 参考訳(メタデータ) (2025-05-22T04:00:12Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation [55.26713167507132]
本稿では,エンボディ空間の構築と解釈を行う生成ロボティクス基礎モデルを提案する。
EnerVerseは、自己回帰的ビデオ拡散フレームワークを使用して、命令から将来のエンボディドスペースを予測する。
本稿では,生成モデルと4次元ガウススプラッティングを組み合わせたデータエンジンパイプラインであるEnerVerse-Dについて述べる。
論文 参考訳(メタデータ) (2025-01-03T17:00:33Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Ripple Attention for Visual Perception with Sub-quadratic Complexity [7.425337104538644]
トランスフォーマーアーキテクチャは現在、自然言語処理タスクのモデリングの中心となっている。
視覚知覚のためのサブクワッドアテンション機構であるリップルアテンションを提案する。
ripple attentionでは、クエリに対する異なるトークンのコントリビューションは、2次元空間における相対空間距離に対して重み付けされる。
論文 参考訳(メタデータ) (2021-10-06T02:00:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。