論文の概要: Representative Attention For Vision Transformers
- arxiv url: http://arxiv.org/abs/2605.14913v1
- Date: Thu, 14 May 2026 14:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.888773
- Title: Representative Attention For Vision Transformers
- Title(参考訳): 視覚変換器の代表的注意
- Authors: Yuntong Li, Hainuo Wang, Hengxing Liu, Mingjia Li, Xiaojie Guo,
- Abstract要約: 直線的注意は、高密度自己注意の二次コストを超えてビジョントランスフォーマーをスケールするための有望な方向として現れている。
本稿では,表現空間内で直接トークン圧縮を行う線形グローバルアテンション機構である代表注意(Representive Attention, RPAttention)を提案する。
RPAttentionは、空間トークンの数に関して、支配的なトークン相互作用の複雑さを2次から線形スケーリングに還元する。
- 参考スコア(独自算出の注目度): 11.0298065364767
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Linear attention has emerged as a promising direction for scaling Vision Transformers beyond the quadratic cost of dense self-attention. A prevalent strategy is to compress spatial tokens into a compact set of intermediate proxies that mediate global information exchange. However, existing methods typically derive these proxy tokens from predefined spatial layouts, causing token compression to remain anchored to image coordinates rather than the semantic organization of visual content. To overcome this limitation, we propose Representative Attention (RPAttention), a linear global attention mechanism that performs token compression directly in representation space. Instead of constructing intermediate tokens from fixed spatial partitions, it dynamically forms a compact set of learned representative tokens to enable semantically related regions to communicate regardless of their spatial distance, by following a lightweight Gather-Interact-Distribute paradigm. Spatial tokens are first softly gathered into representative tokens through competitive similarity-based routing. The representatives then perform global interaction within a compact latent space, before broadcasting the refined information back to all spatial tokens via query-driven cross-attention. Via replacing coordinate-driven aggregation with representation-driven compression, RPAttention preserves global receptive fields while adaptively aligning token communication with the content structure of each input.RPAttention reduces the dominant token interaction complexity from quadratic to linear scaling with respect to the number of spatial tokens, while maintaining expressive global context modeling. Extensive experiments across diverse vision transformer backbones on image classification, object detection, and semantic segmentation demonstrate the effectiveness of our design.
- Abstract(参考訳): 直線的注意は、高密度自己注意の二次コストを超えてビジョントランスフォーマーをスケールするための有望な方向として現れている。
一般的な戦略は、空間トークンをグローバル情報交換を仲介する中間プロキシのコンパクトなセットに圧縮することである。
しかし、既存の方法では、これらのプロキシトークンは事前に定義された空間配置から派生しており、トークン圧縮は視覚的コンテンツのセマンティックな構成ではなく、画像座標に固定される。
この制限を克服するために,表現空間内で直接トークン圧縮を行う線形グローバルアテンション機構である代表注意(Representive Attention, RPAttention)を提案する。
固定された空間分割から中間トークンを構築する代わりに、軽量なGather-Interact-Distributeパラダイムに従うことによって、学習された代表トークンのコンパクトなセットを動的に形成し、空間的距離に関係なく意味的に関連する領域が通信できるようにする。
空間トークンは、競争的類似性に基づくルーティングを通じて、まず代表トークンにソフトに収集される。
次に、代表者はコンパクトな潜在空間内でグローバルなインタラクションを行い、その後、クエリ駆動のクロスアテンションを介して、洗練された情報をすべての空間トークンにブロードキャストする。
RPAttentionは、座標駆動アグリゲーションを表現駆動圧縮に置き換えることで、各入力のコンテンツ構造にトークン通信を適応的に整合させながら、グローバル受容場を保ちます。
画像分類,オブジェクト検出,セマンティックセグメンテーションにおける多様な視覚変換器のバックボーンに対する広範囲な実験により,我々の設計の有効性が示された。
関連論文リスト
- TokenCLIP: Token-wise Prompt Learning for Zero-shot Anomaly Detection [62.95726973851089]
TokenCLIPは、異常学習のためのトークンワイド適応フレームワークである。
視覚的なテキスト空間と学習可能なテキスト空間の動的アライメントを可能にし、微粒な異常学習を実現する。
論文 参考訳(メタデータ) (2025-10-24T05:51:31Z) - Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - Beyond BEV: Optimizing Point-Level Tokens for Collaborative Perception [17.654858416126093]
協調的知覚により、エージェントは中間的特徴を交換することで知覚能力を高めることができる。
既存の手法は通常、これらの中間機能を2D Bird's-eye-view (BEV)表現として整理する。
ポイントレベル最適化トークンを利用した新しい協調認識フレームワークであるCoPLOTを提案する。
論文 参考訳(メタデータ) (2025-08-27T07:27:42Z) - Referring Remote Sensing Image Segmentation with Cross-view Semantics Interaction Network [65.01521002836611]
本稿では,これらの制約を解決するために,並列で統一されたセグメンテーション・フレームワークであるクロスビューセマンティック・インタラクション・ネットワーク(CSINet)を提案する。
関心の対象を観察する際の人間の行動によって動機づけられたネットワークは、遠隔および近距離からの視覚的手がかりを編成し、相乗的予測を行う。
すべてのエンコーディングステージでは、Cross-View Window-attention Module(CVWin)を使用して、グローバルおよびローカルセマンティクスをクローズビューおよびリモートビューブランチ機能に補完する。
論文 参考訳(メタデータ) (2025-08-02T11:57:56Z) - Inceptive Transformers: Enhancing Contextual Representations through Multi-Scale Feature Learning Across Domains and Languages [3.294155819837931]
Transformerモデルは、シーケンス内のすべてのトークンから1つの[/]トークンに情報を圧縮して、グローバルなコンテキストを表現する。
このアプローチは、きめ細かい機能や階層的な特徴を希薄化し、局所的なパターンが重要である下流のタスクで情報を失うリスクがある。
本稿では,トランス層上に位置するインセプションスタイルの1-D畳み込みモジュールを提案し,マルチスケールな局所的特徴を持つトークン表現を拡大する。
論文 参考訳(メタデータ) (2025-05-26T19:59:22Z) - Cross Paradigm Representation and Alignment Transformer for Image Deraining [40.66823807648992]
クロスパラダイム表現・アライメント変換器(CPRAformer)を提案する。
その中心となる考え方は階層的な表現とアライメントであり、両方のパラダイムの強みを活用して画像再構成を支援する。
トランスフォーマーブロックでは,スパースプロンプトチャネル自己アテンション(SPC-SA)と空間画素改善自己アテンション(SPR-SA)の2種類の自己アテンションを使用する。
論文 参考訳(メタデータ) (2025-04-23T06:44:46Z) - Unified Local and Global Attention Interaction Modeling for Vision Transformers [1.9571946424055506]
本稿では,視覚変換器(ViT)の自己認識機構を拡張し,多様なデータセット間でより正確な物体検出を行う手法を提案する。
ViTは、オブジェクト検出、セグメンテーション、分類などの画像理解タスクに強力な能力を示す。
従来の自己意識フレームワークには,局所的特徴混合のための新たなアグレッシブ・コンボリューション・プール戦略と,新たな概念的アテンション・トランスフォーメーションという,2つの改良が加えられている。
論文 参考訳(メタデータ) (2024-12-25T04:53:19Z) - Semantic Equitable Clustering: A Simple and Effective Strategy for Clustering Vision Tokens [57.37893387775829]
我々はSemantic Equitable Clustering(SEC)という,高速かつバランスの取れたクラスタリング手法を導入する。
SECは、グローバルなセマンティックな関連性に基づいてトークンを効率的かつ直接的な方法でクラスタ化する。
視覚言語コネクタとして機能する汎用視覚バックボーンであるSECViTを提案する。
論文 参考訳(メタデータ) (2024-05-22T04:49:00Z) - Xformer: Hybrid X-Shaped Transformer for Image Denoising [114.37510775636811]
本稿では,XformerというハイブリッドX字型視覚変換器について紹介する。
Xformerは、合成および実世界の画像復調タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-03-11T16:32:09Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。