論文の概要: GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group
Propagation
- arxiv url: http://arxiv.org/abs/2212.06795v1
- Date: Tue, 13 Dec 2022 18:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:02:17.759556
- Title: GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group
Propagation
- Title(参考訳): GPViT:グループ伝搬を用いた高分解能非階層視覚変換器
- Authors: Chenhongyi Yang, Jiarui Xu, Shalini De Mello, Elliot J. Crowley,
Xiaolong Wang
- Abstract要約: 本稿では,高分解能特徴を持つ一般視覚認識のための新しい非階層型トランスフォーマーモデルを提案する。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
- 参考スコア(独自算出の注目度): 25.689520892609213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the Group Propagation Vision Transformer (GPViT): a novel
nonhierarchical (i.e. non-pyramidal) transformer model designed for general
visual recognition with high-resolution features. High-resolution features (or
tokens) are a natural fit for tasks that involve perceiving fine-grained
details such as detection and segmentation, but exchanging global information
between these features is expensive in memory and computation because of the
way self-attention scales. We provide a highly efficient alternative Group
Propagation Block (GP Block) to exchange global information. In each GP Block,
features are first grouped together by a fixed number of learnable group
tokens; we then perform Group Propagation where global information is exchanged
between the grouped features; finally, global information in the updated
grouped features is returned back to the image features through a transformer
decoder. We evaluate GPViT on a variety of visual recognition tasks including
image classification, semantic segmentation, object detection, and instance
segmentation. Our method achieves significant performance gains over previous
works across all tasks, especially on tasks that require high-resolution
outputs, for example, our GPViT-L3 outperforms Swin Transformer-B by 2.0 mIoU
on ADE20K semantic segmentation with only half as many parameters. Code and
pre-trained models are available at https://github.com/ChenhongyiYang/GPViT .
- Abstract(参考訳): グループ伝搬型視覚トランスフォーマ(gpvit: group propagation vision transformer, gpvit)は、非階層的(非ピラミダル)トランスフォーマモデルである。
高分解能機能(またはトークン)は、検出やセグメンテーションなどの細かな詳細を知覚するタスクに自然に適合するが、これらの機能間のグローバル情報交換は、自己依存のスケール方法のため、メモリと計算において高価である。
グローバルな情報を交換するための,効率のよいグループ伝搬ブロック(GPブロック)を提供する。
各GPブロックでは、まず一定数の学習可能なグループトークンで特徴をグループ化し、次にグループ間でグローバル情報を交換するグループプロパゲーションを行い、最後に、更新されたグループ化された特徴のグローバル情報を変換器デコーダを介して画像特徴に戻す。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
我々のGPViT-L3はADE20KセマンティックセマンティックセグメンテーションにおいてSwin Transformer-Bを2.0mIoUで上回り、パラメータは半分しかありません。
コードと事前トレーニングされたモデルはhttps://github.com/ChenhongyiYang/GPViT で公開されている。
関連論文リスト
- HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer [5.96521715927858]
HiFiSegは、高周波情報処理を強化する、大腸ポリープセグメンテーションのための新しいネットワークである。
GLIMは並列構造を用いてグローバルおよびローカル情報を複数のスケールで融合し、より微細な特徴を効果的にキャプチャする。
SAMは、高レベルの特徴からのセマンティック情報と低レベルの特徴から境界の詳細を選択的に統合し、ポリープを正確に検出し、セグメント化するモデルの能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-10-03T14:36:22Z) - Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - GRA: Detecting Oriented Objects through Group-wise Rotating and Attention [64.21917568525764]
GRA(Group-wise Rotating and Attention)モジュールは、オブジェクト指向オブジェクト検出のためのバックボーンネットワークにおける畳み込み操作を置き換えるために提案されている。
GRAは、グループワイド回転(Group-wise Rotating)とグループワイド注意(Group-wise Attention)という2つの重要なコンポーネントを含む、さまざまな向きのオブジェクトのきめ細かい特徴を適応的にキャプチャすることができる。
GRAはDOTA-v2.0ベンチマークで新しい最先端(SOTA)を実現し、以前のSOTA法と比較してパラメータを50%近く削減した。
論文 参考訳(メタデータ) (2024-03-17T07:29:32Z) - Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [81.1943823985213]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - GroupTransNet: Group Transformer Network for RGB-D Salient Object
Detection [5.876499671899904]
本稿では,RGB-D有向物体検出のためのグループトランスフォーマーネットワーク(GroupTransNet)を提案する。
GroupTransNetは、クロスレイヤ機能の長距離依存関係を学ぶのが得意です。
実験により、GroupTransNetは比較モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-03-21T08:00:16Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。