論文の概要: GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group
Propagation
- arxiv url: http://arxiv.org/abs/2212.06795v1
- Date: Tue, 13 Dec 2022 18:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-14 14:02:17.759556
- Title: GPViT: A High Resolution Non-Hierarchical Vision Transformer with Group
Propagation
- Title(参考訳): GPViT:グループ伝搬を用いた高分解能非階層視覚変換器
- Authors: Chenhongyi Yang, Jiarui Xu, Shalini De Mello, Elliot J. Crowley,
Xiaolong Wang
- Abstract要約: 本稿では,高分解能特徴を持つ一般視覚認識のための新しい非階層型トランスフォーマーモデルを提案する。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
- 参考スコア(独自算出の注目度): 25.689520892609213
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present the Group Propagation Vision Transformer (GPViT): a novel
nonhierarchical (i.e. non-pyramidal) transformer model designed for general
visual recognition with high-resolution features. High-resolution features (or
tokens) are a natural fit for tasks that involve perceiving fine-grained
details such as detection and segmentation, but exchanging global information
between these features is expensive in memory and computation because of the
way self-attention scales. We provide a highly efficient alternative Group
Propagation Block (GP Block) to exchange global information. In each GP Block,
features are first grouped together by a fixed number of learnable group
tokens; we then perform Group Propagation where global information is exchanged
between the grouped features; finally, global information in the updated
grouped features is returned back to the image features through a transformer
decoder. We evaluate GPViT on a variety of visual recognition tasks including
image classification, semantic segmentation, object detection, and instance
segmentation. Our method achieves significant performance gains over previous
works across all tasks, especially on tasks that require high-resolution
outputs, for example, our GPViT-L3 outperforms Swin Transformer-B by 2.0 mIoU
on ADE20K semantic segmentation with only half as many parameters. Code and
pre-trained models are available at https://github.com/ChenhongyiYang/GPViT .
- Abstract(参考訳): グループ伝搬型視覚トランスフォーマ(gpvit: group propagation vision transformer, gpvit)は、非階層的(非ピラミダル)トランスフォーマモデルである。
高分解能機能(またはトークン)は、検出やセグメンテーションなどの細かな詳細を知覚するタスクに自然に適合するが、これらの機能間のグローバル情報交換は、自己依存のスケール方法のため、メモリと計算において高価である。
グローバルな情報を交換するための,効率のよいグループ伝搬ブロック(GPブロック)を提供する。
各GPブロックでは、まず一定数の学習可能なグループトークンで特徴をグループ化し、次にグループ間でグローバル情報を交換するグループプロパゲーションを行い、最後に、更新されたグループ化された特徴のグローバル情報を変換器デコーダを介して画像特徴に戻す。
画像分類,セマンティックセグメンテーション,オブジェクト検出,インスタンスセグメンテーションなど,さまざまな視覚的タスクにおけるGPViTの評価を行った。
我々のGPViT-L3はADE20KセマンティックセマンティックセグメンテーションにおいてSwin Transformer-Bを2.0mIoUで上回り、パラメータは半分しかありません。
コードと事前トレーニングされたモデルはhttps://github.com/ChenhongyiYang/GPViT で公開されている。
関連論文リスト
- Leveraging Swin Transformer for Local-to-Global Weakly Supervised
Semantic Segmentation [12.103012959947055]
本研究では、初期シードCAMの精度を高めるために「SWTformer」を提案することで、Swin Transformerの使用について検討する。
SWTformer-V1は、精度0.98%のmAPを実現し、最先端モデルより優れている。
SWTformer-V2は、追加情報を抽出するためにマルチスケールの機能融合機構を組み込んでいる。
論文 参考訳(メタデータ) (2024-01-31T13:41:17Z) - Group Multi-View Transformer for 3D Shape Analysis with Spatial Encoding [84.69144118699766]
近年,ビューベース3次元形状認識手法の結果は飽和しており,メモリ制限デバイスに優れた性能を持つモデルは展開できない。
本稿では,本分野の知識蒸留に基づく圧縮手法を提案し,モデル性能を極力保ちながらパラメータ数を大幅に削減する。
具体的には、小型モデルの能力を高めるため、GMViT(Group Multi-view Vision Transformer)と呼ばれる高性能な大型モデルを設計する。
GMViTは、ベンチマークデータセットであるModelNet、ShapeNetCore55、MCBにおいて、優れた3D分類と検索結果を得る。
論文 参考訳(メタデータ) (2023-12-27T08:52:41Z) - Long-Range Grouping Transformer for Multi-View 3D Reconstruction [9.2709012704338]
配当原理に基づくLGA(Long-range Grouping attention)を提案する。
ビュー間特徴を接続する効率的かつ効率的なエンコーダを確立することができる。
プログレッシブ・アップサンプリング・デコーダは比較的高解像度のボクセル生成のために設計された。
論文 参考訳(メタデータ) (2023-08-17T01:34:59Z) - ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised
Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。
MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。
また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文 参考訳(メタデータ) (2023-07-05T03:43:15Z) - Interactive Segmentation as Gaussian Process Classification [58.44673380545409]
クリックベースのインタラクティブセグメンテーション(IS)は、ユーザインタラクション下で対象オブジェクトを抽出することを目的としている。
現在のディープラーニング(DL)ベースの手法のほとんどは、主にセマンティックセグメンテーションの一般的なパイプラインに従っている。
本稿では,各画像上でガウス過程(GP)に基づく画素単位のバイナリ分類モデルとしてISタスクを定式化することを提案する。
論文 参考訳(メタデータ) (2023-02-28T14:01:01Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - DuAT: Dual-Aggregation Transformer Network for Medical Image
Segmentation [21.717520350930705]
トランスフォーマーベースのモデルはコンピュータビジョンタスクで成功することが広く実証されている。
しかし、それらはしばしば大きなパターンの特徴によって支配され、局所的な詳細が失われる。
本稿では、2つの革新的な設計を特徴とするDuATと呼ばれるDual-Aggregation Transformer Networkを提案する。
大腸内視鏡画像における皮膚病変像とポリープの分画における最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-21T07:54:02Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Transformer Scale Gate for Semantic Segmentation [53.27673119360868]
Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。
Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
論文 参考訳(メタデータ) (2022-05-14T13:11:39Z) - GroupTransNet: Group Transformer Network for RGB-D Salient Object
Detection [5.876499671899904]
本稿では,RGB-D有向物体検出のためのグループトランスフォーマーネットワーク(GroupTransNet)を提案する。
GroupTransNetは、クロスレイヤ機能の長距離依存関係を学ぶのが得意です。
実験により、GroupTransNetは比較モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-03-21T08:00:16Z) - RGBT Tracking via Multi-Adapter Network with Hierarchical Divergence
Loss [37.99375824040946]
本稿では,モダリティ共有型,モダリティ特化型,インスタンス認識型ターゲット表現学習を共同で行うための,新しいマルチアダプタネットワークを提案する。
2つのRGBT追跡ベンチマークデータセットの実験は、提案したトラッカーの優れた性能を示す。
論文 参考訳(メタデータ) (2020-11-14T01:50:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。