論文の概要: Focus Your Attention: Towards Data-Intuitive Lightweight Vision Transformers
- arxiv url: http://arxiv.org/abs/2506.18791v1
- Date: Mon, 23 Jun 2025 16:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.073036
- Title: Focus Your Attention: Towards Data-Intuitive Lightweight Vision Transformers
- Title(参考訳): 注意を集中する - データ直感的なライトウェイト・ビジョン・トランスを目指して
- Authors: Suyash Gaurav, Muhammad Farhan Humayun, Jukka Heikkonen, Jatin Chaudhary,
- Abstract要約: Super-Pixel Based Patch Pooling (SPPP)技術は、アーキテクチャの複雑さを低減し、効率を向上させるために、コンテキスト対応、セマンティックにリッチなパッチ埋め込みを生成する。
我々は、潜在トークンをアテンションメカニズムに統合することで、光遅延注意(LLA)モジュールをパイプラインに導入する。
提案手法は,グローバルな意味構造を維持しつつ,情報的領域に焦点を絞るために,横断的意図過程を適応的に調整する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of Vision Transformers has led to their widespread adaptation to different domains. Despite large-scale success, there remain significant challenges including their reliance on extensive computational and memory resources for pre-training on huge datasets as well as difficulties in task-specific transfer learning. These limitations coupled with energy inefficiencies mainly arise due to the computation-intensive self-attention mechanism. To address these issues, we propose a novel Super-Pixel Based Patch Pooling (SPPP) technique that generates context-aware, semantically rich, patch embeddings to effectively reduce the architectural complexity and improve efficiency. Additionally, we introduce the Light Latent Attention (LLA) module in our pipeline by integrating latent tokens into the attention mechanism allowing cross-attention operations to significantly reduce the time and space complexity of the attention module. By leveraging the data-intuitive patch embeddings coupled with dynamic positional encodings, our approach adaptively modulates the cross-attention process to focus on informative regions while maintaining the global semantic structure. This targeted attention improves training efficiency and accelerates convergence. Notably, the SPPP module is lightweight and can be easily integrated into existing transformer architectures. Extensive experiments demonstrate that our proposed architecture provides significant improvements in terms of computational efficiency while achieving comparable results with the state-of-the-art approaches, highlighting its potential for energy-efficient transformers suitable for edge deployment. (The code is available on our GitHub repository: https://github.com/zser092/Focused-Attention-ViT).
- Abstract(参考訳): ビジョントランスフォーマーの進化により、様々な領域に広く適応するようになった。
大規模な成功にもかかわらず、巨大なデータセットを事前トレーニングするための広範な計算資源やメモリリソースへの依存、タスク固有のトランスファー学習の難しさなど、大きな課題が残っている。
これらの制限とエネルギーの非効率性は、主に計算集約的な自己認識機構によって生じる。
これらの課題に対処するために,アーキテクチャの複雑さを効果的に低減し,効率を向上させるために,コンテキスト認識,セマンティックにリッチなパッチ埋め込みを生成する新しいSPPP技術を提案する。
さらに,光遅延アテンション(LLA)モジュールをパイプラインに導入し,遅延トークンをアテンション機構に統合することで,アテンションモジュールの時間と空間の複雑さを大幅に低減する。
動的位置エンコーディングと組み合わせたデータ直感的パッチ埋め込みを利用することで、グローバルな意味構造を維持しながら、情報領域に集中するように、横断的アテンションプロセスを適応的に調整する。
この目標とする注意は、トレーニング効率を改善し、収束を加速します。
特にSPPPモジュールは軽量であり、既存のトランスフォーマーアーキテクチャに簡単に統合できる。
大規模実験により,提案アーキテクチャは計算効率の面で大幅に向上し,最先端のアプローチと同等の結果が得られ,エッジ配置に適したエネルギー効率の高いトランスフォーマーの可能性を強調した。
コードはGitHubリポジトリ(https://github.com/zser092/Focused-Attention-ViT)で公開しています。
関連論文リスト
- Is Attention Required for Transformer Inference? Explore Function-preserving Attention Replacement [13.38679135071682]
本稿では,事前学習したトランスフォーマーのすべての注意ブロックを学習可能なシーケンス・ツー・シーケンスモジュールに置き換える機能保存型アテンション・リプレースメントフレームワークを提案する。
DeiTビジョントランスファミリ上でFARを検証し、ImageNet上の元のモデルの精度と、パラメータとレイテンシを低減した複数の下流タスクとを一致させることを実証する。
論文 参考訳(メタデータ) (2025-05-24T02:23:46Z) - Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Skip-Layer Attention: Bridging Abstract and Detailed Dependencies in Transformers [56.264673865476986]
本稿では、Transformerモデルを強化するためのSLA(Skip-Layer Attention)を提案する。
SLAは、高レベルの抽象機能と低レベルの詳細の間の依存関係をキャプチャするモデルの能力を改善します。
我々の実装は、与えられたレイヤ内のクエリが、現在のレイヤと前のレイヤの両方のキーと値とやり取りできるようにすることで、Transformerの機能を拡張します。
論文 参考訳(メタデータ) (2024-06-17T07:24:38Z) - EfficientMorph: Parameter-Efficient Transformer-Based Architecture for 3D Image Registration [1.741980945827445]
教師なし3次元画像登録のためのトランスフォーマーベースのアーキテクチャであるnameを提示する。
nameは、平面ベースのアテンションメカニズムを通じて3Dボリュームのローカルとグローバルのアテンションをバランスさせ、Hi-Resトークン化戦略とマージ操作を使用する。
論文 参考訳(メタデータ) (2024-03-16T22:01:55Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。