論文の概要: Attention Is not Everything: Efficient Alternatives for Vision
- arxiv url: http://arxiv.org/abs/2604.17439v1
- Date: Sun, 19 Apr 2026 13:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.52748
- Title: Attention Is not Everything: Efficient Alternatives for Vision
- Title(参考訳): 注意がすべてではない - ビジョンの効率的な代替手段
- Authors: Nur Mohammad Kazi, Ibteshum Khaled, Md. Luthful Hasan Galib, Ali Faruk Shihab, Md. Rakibul Islam,
- Abstract要約: 本稿では,このような手法の包括的分類法を提案する。
目標は、トランスフォーマー以外の方法の展望を与え、将来のコンピュータビジョン研究にどのような課題と機会が存在するかを明らかにすることである。
- 参考スコア(独自算出の注目度): 0.2446672595462589
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently computer vision has seen advancements mainly thanks to Transformer-based models. However many non-Transformer methods are still doing well being a direct competition of Transformer-based models. This review tries to present a comprehensive taxonomy of such methods and organize these methods into categories like convolution-based models, MLP-based models, state-space-based and more. These methods are looked at in terms of how efficient they are, how well they scale, how easy they are to understand and how robust they are. A total of 40 papers were chosen for this study. The goal is to give a view of non-Transformer methods and find out what challenges and opportunities exist for future computer vision research.
- Abstract(参考訳): 近年のコンピュータビジョンは、主にTransformerベースのモデルによって進歩している。
しかし、多くの非トランスフォーマー法はトランスフォーマーベースのモデルと直接競合している。
本稿では,このような手法を包括的に分類し,畳み込みモデル,MLPモデル,状態空間モデルなどのカテゴリに分類する。
これらの手法は,効率的さ,スケール性,理解の容易さ,堅牢さなどの観点から検討されている。
この研究には合計40の論文が選ばれた。
目標は、トランスフォーマー以外の方法の展望を与え、将来のコンピュータビジョン研究にどのような課題と機会が存在するかを明らかにすることである。
関連論文リスト
- A Comprehensive Study of Vision Transformers in Image Classification
Tasks [0.46040036610482665]
画像分類のための視覚変換器に関する既存の論文を包括的に調査する。
まず,モデルの設計に影響を及ぼす人気画像分類データセットを紹介する。
まず、視覚タスクに注意機構を適応させようとする初期の試みから始まる、時系列順の視覚トランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-12-02T21:38:16Z) - Introduction to Transformers: an NLP Perspective [59.0241868728732]
本稿では、トランスフォーマーの基本概念と、これらのモデルの最近の進歩を形作る重要な技術を紹介する。
これには、標準のTransformerアーキテクチャ、一連のモデル改良、一般的なアプリケーションの記述が含まれる。
論文 参考訳(メタデータ) (2023-11-29T13:51:04Z) - Multi-Game Decision Transformers [49.257185338595434]
そこで本研究では,1つのトランスフォーマーモデルを用いて,最大46個のAtariゲーム群を,人間に近いパフォーマンスで同時にプレイ可能であることを示す。
オンラインやオフラインのRL手法や行動クローンなど,マルチゲーム設定におけるいくつかのアプローチを比較した。
マルチゲーム決定変換モデルは、最高のスケーラビリティとパフォーマンスを提供します。
論文 参考訳(メタデータ) (2022-05-30T16:55:38Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - A Neural Few-Shot Text Classification Reality Check [4.689945062721168]
いくつかのニューラルな数発の分類モデルが出現し、時間とともに大きな進歩をもたらした。
本稿では,これらのモデルを全て比較し,まず画像処理分野のモデルをNLPに適応させ,次にトランスにアクセスできるようにした。
次に,多数のクラスを持つことで知られるインテント検出タスクにおいて,同じトランスフォーマーベースのエンコーダを備えたモデルをテストする。
論文 参考訳(メタデータ) (2021-01-28T15:46:14Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。