論文の概要: NomMer: Nominate Synergistic Context in Vision Transformer for Visual
Recognition
- arxiv url: http://arxiv.org/abs/2111.12994v1
- Date: Thu, 25 Nov 2021 10:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:46:25.510187
- Title: NomMer: Nominate Synergistic Context in Vision Transformer for Visual
Recognition
- Title(参考訳): NomMer:視覚認識のための視覚変換器における相乗的コンテキスト
- Authors: Hao Liu, Xinghua Jiang, Xin Li, Zhimin Bao, Deqiang Jiang, Bo Ren
- Abstract要約: 視覚変換器 (ViT) は自己注意 (SA) を事実上の材料として, コンピュータビジョンコミュニティにおいて大きな可能性を示している。
本稿では,視覚トランスフォーマーにおける相乗的グローバルなコンテキストを動的に決定できる,NomMerと呼ばれる新しいViTアーキテクチャを提案する。
NomMerは、73MパラメータだけでImageNet上で84.5%のTop-1分類精度を達成できるだけでなく、密度の高い予測タスクでも有望な性能を示す。
- 参考スコア(独自算出の注目度): 13.786944747100796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Transformers (ViT), with the self-attention (SA) as the de
facto ingredients, have demonstrated great potential in the computer vision
community. For the sake of trade-off between efficiency and performance, a
group of works merely perform SA operation within local patches, whereas the
global contextual information is abandoned, which would be indispensable for
visual recognition tasks. To solve the issue, the subsequent global-local ViTs
take a stab at marrying local SA with global one in parallel or alternative way
in the model. Nevertheless, the exhaustively combined local and global context
may exist redundancy for various visual data, and the receptive field within
each layer is fixed. Alternatively, a more graceful way is that global and
local context can adaptively contribute per se to accommodate different visual
data. To achieve this goal, we in this paper propose a novel ViT architecture,
termed NomMer, which can dynamically Nominate the synergistic global-local
context in vision transforMer. By investigating the working pattern of our
proposed NomMer, we further explore what context information is focused.
Beneficial from this "dynamic nomination" mechanism, without bells and
whistles, the NomMer can not only achieve 84.5% Top-1 classification accuracy
on ImageNet with only 73M parameters, but also show promising performance on
dense prediction tasks, i.e., object detection and semantic segmentation. The
code and models will be made publicly available
at~\url{https://github.com/NomMer1125/NomMer.
- Abstract(参考訳): 近年,視覚トランスフォーマー (vit) は,自意識 (sa) をデファクト成分としており,コンピュータビジョンコミュニティにおいて大きな可能性を秘めている。
効率性と性能のトレードオフのためには、一群の作品がローカルパッチ内でSA操作のみを行うのに対し、グローバルな文脈情報は放棄され、視覚認識タスクには不可欠である。
この問題を解決するため、その後のグローバルローカルvitsは、モデルにおいて、ローカルsaとグローバルsaの結婚を並列または代替的に行う。
それでも、局所的・グローバル的に組み合わせたコンテキストは、様々な視覚データに冗長性があり、各層内の受容野は固定されている。
あるいは、より優雅な方法は、グローバルなコンテキストとローカルなコンテキストがそれぞれに適応して、異なる視覚データに対応できることです。
この目的を達成するために,我々は,視覚トランスフォーマーにおける相乗的グローバルなコンテキストを動的に決定できる,NomMerと呼ばれる新しいViTアーキテクチャを提案する。
提案するnommerの動作パターンを調査することで,コンテキスト情報が注目されているものをさらに探究する。
この「ダイナミックな指名」メカニズムの利点は、ベルやホイッスルがなければ、NomMerはイメージネット上で73Mパラメータだけで84.5%のTop-1分類精度を達成できるだけでなく、オブジェクト検出やセマンティックセグメンテーションといった高密度な予測タスクでも有望な性能を示すことができる。
コードとモデルは、~\url{https://github.com/NomMer1125/NomMerで公開される。
関連論文リスト
- Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - Global and Local Semantic Completion Learning for Vision-Language
Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。
グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文 参考訳(メタデータ) (2023-06-12T13:20:29Z) - Open-World Weakly-Supervised Object Localization [26.531408294517416]
我々は、OWSOL(Open-World Weakly-Supervised Object Localization)と呼ばれる、新しい弱い教師付きオブジェクトローカライゼーションタスクを導入する。
本稿では、ラベル付きデータとラベルなしデータの両方を用いて、オブジェクトローカライゼーションのための完全なG-CAMを生成するコントラスト表現協調学習のパラダイムを提案する。
我々は、画像Net-1KとiNatLoc500という2つの広く使われているデータセットを再編成し、OWSOLの評価ベンチマークとしてOpenImages150を提案する。
論文 参考訳(メタデータ) (2023-04-17T13:31:59Z) - MIC: Masked Image Consistency for Context-Enhanced Domain Adaptation [104.40114562948428]
教師なしドメイン適応(UDA)では、ソースデータ(例えば、合成)に基づいて訓練されたモデルは、ターゲットアノテーションにアクセスすることなく、ターゲットデータ(例えば、現実世界)に適応する。
本研究では,対象領域の空間的コンテキスト関係を学習し,UDAを向上するMasked Image Consistency (MIC)モジュールを提案する。
MICは、合成からリアルタイム、日夜、クリア・ツー・リバース・ウェザーUDAの様々な認識タスクにおいて、最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-12-02T17:29:32Z) - MAFormer: A Transformer Network with Multi-scale Attention Fusion for
Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。
MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。
私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-08-31T06:29:27Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Conformer: Local Features Coupling Global Representations for Visual
Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。
実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文 参考訳(メタデータ) (2021-05-09T10:00:03Z) - Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。
属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。
この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文 参考訳(メタデータ) (2021-03-05T02:14:57Z) - SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A
Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。
モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。
また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文 参考訳(メタデータ) (2020-01-24T16:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。