論文の概要: NomMer: Nominate Synergistic Context in Vision Transformer for Visual
Recognition
- arxiv url: http://arxiv.org/abs/2111.12994v1
- Date: Thu, 25 Nov 2021 10:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:46:25.510187
- Title: NomMer: Nominate Synergistic Context in Vision Transformer for Visual
Recognition
- Title(参考訳): NomMer:視覚認識のための視覚変換器における相乗的コンテキスト
- Authors: Hao Liu, Xinghua Jiang, Xin Li, Zhimin Bao, Deqiang Jiang, Bo Ren
- Abstract要約: 視覚変換器 (ViT) は自己注意 (SA) を事実上の材料として, コンピュータビジョンコミュニティにおいて大きな可能性を示している。
本稿では,視覚トランスフォーマーにおける相乗的グローバルなコンテキストを動的に決定できる,NomMerと呼ばれる新しいViTアーキテクチャを提案する。
NomMerは、73MパラメータだけでImageNet上で84.5%のTop-1分類精度を達成できるだけでなく、密度の高い予測タスクでも有望な性能を示す。
- 参考スコア(独自算出の注目度): 13.786944747100796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformers (ViT), with the self-attention (SA) as the de
facto ingredients, have demonstrated great potential in the computer vision
community. For the sake of trade-off between efficiency and performance, a
group of works merely perform SA operation within local patches, whereas the
global contextual information is abandoned, which would be indispensable for
visual recognition tasks. To solve the issue, the subsequent global-local ViTs
take a stab at marrying local SA with global one in parallel or alternative way
in the model. Nevertheless, the exhaustively combined local and global context
may exist redundancy for various visual data, and the receptive field within
each layer is fixed. Alternatively, a more graceful way is that global and
local context can adaptively contribute per se to accommodate different visual
data. To achieve this goal, we in this paper propose a novel ViT architecture,
termed NomMer, which can dynamically Nominate the synergistic global-local
context in vision transforMer. By investigating the working pattern of our
proposed NomMer, we further explore what context information is focused.
Beneficial from this "dynamic nomination" mechanism, without bells and
whistles, the NomMer can not only achieve 84.5% Top-1 classification accuracy
on ImageNet with only 73M parameters, but also show promising performance on
dense prediction tasks, i.e., object detection and semantic segmentation. The
code and models will be made publicly available
at~\url{https://github.com/NomMer1125/NomMer.
- Abstract(参考訳): 近年,視覚トランスフォーマー (vit) は,自意識 (sa) をデファクト成分としており,コンピュータビジョンコミュニティにおいて大きな可能性を秘めている。
効率性と性能のトレードオフのためには、一群の作品がローカルパッチ内でSA操作のみを行うのに対し、グローバルな文脈情報は放棄され、視覚認識タスクには不可欠である。
この問題を解決するため、その後のグローバルローカルvitsは、モデルにおいて、ローカルsaとグローバルsaの結婚を並列または代替的に行う。
それでも、局所的・グローバル的に組み合わせたコンテキストは、様々な視覚データに冗長性があり、各層内の受容野は固定されている。
あるいは、より優雅な方法は、グローバルなコンテキストとローカルなコンテキストがそれぞれに適応して、異なる視覚データに対応できることです。
この目的を達成するために,我々は,視覚トランスフォーマーにおける相乗的グローバルなコンテキストを動的に決定できる,NomMerと呼ばれる新しいViTアーキテクチャを提案する。
提案するnommerの動作パターンを調査することで,コンテキスト情報が注目されているものをさらに探究する。
この「ダイナミックな指名」メカニズムの利点は、ベルやホイッスルがなければ、NomMerはイメージネット上で73Mパラメータだけで84.5%のTop-1分類精度を達成できるだけでなく、オブジェクト検出やセマンティックセグメンテーションといった高密度な予測タスクでも有望な性能を示すことができる。
コードとモデルは、~\url{https://github.com/NomMer1125/NomMerで公開される。
関連論文リスト
- Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。
そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。
我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文 参考訳(メタデータ) (2024-11-21T18:59:08Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Open-World Weakly-Supervised Object Localization [26.531408294517416]
我々は、OWSOL(Open-World Weakly-Supervised Object Localization)と呼ばれる、新しい弱い教師付きオブジェクトローカライゼーションタスクを導入する。
本稿では、ラベル付きデータとラベルなしデータの両方を用いて、オブジェクトローカライゼーションのための完全なG-CAMを生成するコントラスト表現協調学習のパラダイムを提案する。
我々は、画像Net-1KとiNatLoc500という2つの広く使われているデータセットを再編成し、OWSOLの評価ベンチマークとしてOpenImages150を提案する。
論文 参考訳(メタデータ) (2023-04-17T13:31:59Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。