Fugu-MT 論文翻訳(概要): NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition

論文の概要: NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition

arxiv url: http://arxiv.org/abs/2111.12994v1
Date: Thu, 25 Nov 2021 10:07:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-29 16:46:25.510187
Title: NomMer: Nominate Synergistic Context in Vision Transformer for Visual Recognition
Title（参考訳）: NomMer:視覚認識のための視覚変換器における相乗的コンテキスト
Authors: Hao Liu, Xinghua Jiang, Xin Li, Zhimin Bao, Deqiang Jiang, Bo Ren
Abstract要約: 視覚変換器 (ViT) は自己注意 (SA) を事実上の材料として, コンピュータビジョンコミュニティにおいて大きな可能性を示している。本稿では,視覚トランスフォーマーにおける相乗的グローバルなコンテキストを動的に決定できる,NomMerと呼ばれる新しいViTアーキテクチャを提案する。 NomMerは、73MパラメータだけでImageNet上で84.5%のTop-1分類精度を達成できるだけでなく、密度の高い予測タスクでも有望な性能を示す。
参考スコア（独自算出の注目度）: 13.786944747100796
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Vision Transformers (ViT), with the self-attention (SA) as the de facto ingredients, have demonstrated great potential in the computer vision community. For the sake of trade-off between efficiency and performance, a group of works merely perform SA operation within local patches, whereas the global contextual information is abandoned, which would be indispensable for visual recognition tasks. To solve the issue, the subsequent global-local ViTs take a stab at marrying local SA with global one in parallel or alternative way in the model. Nevertheless, the exhaustively combined local and global context may exist redundancy for various visual data, and the receptive field within each layer is fixed. Alternatively, a more graceful way is that global and local context can adaptively contribute per se to accommodate different visual data. To achieve this goal, we in this paper propose a novel ViT architecture, termed NomMer, which can dynamically Nominate the synergistic global-local context in vision transforMer. By investigating the working pattern of our proposed NomMer, we further explore what context information is focused. Beneficial from this "dynamic nomination" mechanism, without bells and whistles, the NomMer can not only achieve 84.5% Top-1 classification accuracy on ImageNet with only 73M parameters, but also show promising performance on dense prediction tasks, i.e., object detection and semantic segmentation. The code and models will be made publicly available at~\url{https://github.com/NomMer1125/NomMer.
Abstract（参考訳）: 近年,視覚トランスフォーマー (vit) は,自意識 (sa) をデファクト成分としており,コンピュータビジョンコミュニティにおいて大きな可能性を秘めている。効率性と性能のトレードオフのためには、一群の作品がローカルパッチ内でSA操作のみを行うのに対し、グローバルな文脈情報は放棄され、視覚認識タスクには不可欠である。この問題を解決するため、その後のグローバルローカルvitsは、モデルにおいて、ローカルsaとグローバルsaの結婚を並列または代替的に行う。それでも、局所的・グローバル的に組み合わせたコンテキストは、様々な視覚データに冗長性があり、各層内の受容野は固定されている。あるいは、より優雅な方法は、グローバルなコンテキストとローカルなコンテキストがそれぞれに適応して、異なる視覚データに対応できることです。この目的を達成するために,我々は,視覚トランスフォーマーにおける相乗的グローバルなコンテキストを動的に決定できる,NomMerと呼ばれる新しいViTアーキテクチャを提案する。提案するnommerの動作パターンを調査することで,コンテキスト情報が注目されているものをさらに探究する。この「ダイナミックな指名」メカニズムの利点は、ベルやホイッスルがなければ、NomMerはイメージネット上で73Mパラメータだけで84.5%のTop-1分類精度を達成できるだけでなく、オブジェクト検出やセマンティックセグメンテーションといった高密度な予測タスクでも有望な性能を示すことができる。コードとモデルは、~\url{https://github.com/NomMer1125/NomMerで公開される。

関連論文リスト

Revisiting the Integration of Convolution and Attention for Vision Backbone [59.50256661158862]
畳み込みとMHSA(Multi-head self-attentions)は一般的に、視覚バックボーンを構築するための代替手段であると考えられている。そこで本研究では,MSHAとConvsを,異なる粒度レベルで並列的に使用することを提案する。我々は,提案手法であるtextitGLMix の可能性を実証的に検証した。軽量なConvs に細粒度機能の負荷をオフロードすることで,いくつかのセマンティックスロットで MHSAs を使用するのに十分である。
論文参考訳（メタデータ） (2024-11-21T18:59:08Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文参考訳（メタデータ） (2024-04-23T12:42:07Z)
Grounding Everything: Emerging Localization Properties in Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文参考訳（メタデータ） (2023-12-01T19:06:12Z)
Global and Local Semantic Completion Learning for Vision-Language Pre-training [34.740507502215536]
クロスモーダルアライメントは、視覚言語事前学習モデルにおいて重要な役割を果たす。グローバル・ローカル・セマンティック・コンプリート・ラーニング(GLSCL)タスクを提案し,グローバル・ローカル・アライメントとローカル・ローカル・アライメントを同時に行う。
論文参考訳（メタデータ） (2023-06-12T13:20:29Z)
Open-World Weakly-Supervised Object Localization [26.531408294517416]
我々は、OWSOL(Open-World Weakly-Supervised Object Localization)と呼ばれる、新しい弱い教師付きオブジェクトローカライゼーションタスクを導入する。本稿では、ラベル付きデータとラベルなしデータの両方を用いて、オブジェクトローカライゼーションのための完全なG-CAMを生成するコントラスト表現協調学習のパラダイムを提案する。我々は、画像Net-1KとiNatLoc500という2つの広く使われているデータセットを再編成し、OWSOLの評価ベンチマークとしてOpenImages150を提案する。
論文参考訳（メタデータ） (2023-04-17T13:31:59Z)
MAFormer: A Transformer Network with Multi-scale Attention Fusion for Visual Recognition [45.68567088645708]
マルチスケールアテンションフュージョンを変換器(MAFormer)に導入する。 MAFormerは、視覚認識のためのデュアルストリームフレームワークにおいて、局所的な集約とグローバルな特徴抽出について検討する。私たちのMAFormerは、一般的な視覚タスクで最先端のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-08-31T06:29:27Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Conformer: Local Features Coupling Global Representations for Visual Recognition [72.9550481476101]
本稿では,畳み込み操作と自己アテンション機構を利用した表現学習のためのハイブリッドネットワーク構造,conformerを提案する。実験では、コンフォーマーが同等のパラメータ複雑性の下で視覚変換器(DeiT-B)を2.3%上回ることが示されている。
論文参考訳（メタデータ） (2021-05-09T10:00:03Z)
SceneEncoder: Scene-Aware Semantic Segmentation of Point Clouds with A Learnable Scene Descriptor [51.298760338410624]
本研究では,グローバル情報の効果を高めるために,シーン認識型ガイダンスを付加するSceneEncoderモジュールを提案する。モジュールはシーン記述子を予測し、シーンに存在するオブジェクトのカテゴリを表現することを学習する。また,同じラベルを持つ隣接点に対する特徴の識別を伝搬する領域類似度損失を設計する。
論文参考訳（メタデータ） (2020-01-24T16:53:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。