Fugu-MT 論文翻訳(概要): Transformer Scale Gate for Semantic Segmentation

論文の概要: Transformer Scale Gate for Semantic Segmentation

arxiv url: http://arxiv.org/abs/2205.07056v1
Date: Sat, 14 May 2022 13:11:39 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-17 15:41:42.961557
Title: Transformer Scale Gate for Semantic Segmentation
Title（参考訳）: セマンティックセグメンテーションのための変圧器スケールゲート
Authors: Hengcan Shi, Munawar Hayat, Jianfei Cai
Abstract要約: Transformer Scale Gate (TSG) は、視覚変換器の自己および横断的な注意をスケール選択に活用する。 Pascal ContextとADE20Kデータセットに関する我々の実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。
参考スコア（独自算出の注目度）: 53.27673119360868
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Effectively encoding multi-scale contextual information is crucial for accurate semantic segmentation. Existing transformer-based segmentation models combine features across scales without any selection, where features on sub-optimal scales may degrade segmentation outcomes. Leveraging from the inherent properties of Vision Transformers, we propose a simple yet effective module, Transformer Scale Gate (TSG), to optimally combine multi-scale features.TSG exploits cues in self and cross attentions in Vision Transformers for the scale selection. TSG is a highly flexible plug-and-play module, and can easily be incorporated with any encoder-decoder-based hierarchical vision Transformer architecture. Extensive experiments on the Pascal Context and ADE20K datasets demonstrate that our feature selection strategy achieves consistent gains.
Abstract（参考訳）: マルチスケールコンテキスト情報を効果的に符号化することは、正確なセマンティックセグメンテーションに不可欠である。既存のトランスフォーマーベースのセグメンテーションモデルでは、選択せずにスケールにまたがる機能を組み合わせることで、サブ最適スケールの機能はセグメンテーションの結果を劣化させる可能性がある。視覚変換器の特性を生かして,マルチスケール特徴を最適に組み合わせた簡易かつ効果的なモジュールTransformer Scale Gate (TSG)を提案する。 tsgは高度に柔軟なプラグ・アンド・プレイモジュールであり、エンコーダ・デコーダベースの階層型視覚トランスフォーマーアーキテクチャを容易に組み込むことができる。 Pascal ContextとADE20Kデータセットに関する大規模な実験は、我々の特徴選択戦略が一貫した利益を達成することを示す。

関連論文リスト

GLoG-CSUnet: Enhancing Vision Transformers with Adaptable Radiomic Features for Medical Image Segmentation [2.294915015129229]
ビジョントランスフォーマー(ViT)は医療画像セマンティックセグメンテーション(MISS)において有望であることを示した Gabor and Laplacian of Gaussian Convolutional Swin Network (GLoG-CSUnet) を紹介する。 GLoG-CSUnetは、学習可能な放射能機能を組み込んだトランスフォーマーモデルを強化する新しいアーキテクチャである。
論文参考訳（メタデータ） (2025-01-06T06:07:40Z)
CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文参考訳（メタデータ） (2024-04-23T18:46:07Z)
Minimalist and High-Performance Semantic Segmentation with Plain Vision Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文参考訳（メタデータ） (2023-10-19T14:01:40Z)
SimPLR: A Simple and Plain Transformer for Scaling-Efficient Object Detection and Segmentation [49.65221743520028]
本研究は, 背骨と頭部が非階層的であり, 単一スケールの機能で動作するSimPLRを, スケール認識型トランスフォーマーベース検出器により検出できることを示す。マルチスケールおよびシングルスケールの最先端と比較して、我々のモデルはより大きなキャパシティ(自己監督型)モデルとより事前学習データにより、はるかに良くスケールする。
論文参考訳（メタデータ） (2023-10-09T17:59:26Z)
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。 CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文参考訳（メタデータ） (2023-08-13T06:12:00Z)
ZJU ReLER Submission for EPIC-KITCHEN Challenge 2023: Semi-Supervised Video Object Segmentation [62.98078087018469]
マルチ機能スケールでトランスフォーマーを組み込んだAOTフレームワークの派生版であるMSDeAOTを紹介する。 MSDeAOTは16のストライドを持つ特徴尺度を用いて、以前のフレームから現在のフレームへ効率的にオブジェクトマスクを伝搬する。また,GPMを8ストライドで改良した機能スケールで採用することで,小型物体の検出・追跡の精度が向上した。
論文参考訳（メタデータ） (2023-07-05T03:43:15Z)
SSformer: A Lightweight Transformer for Semantic Segmentation [7.787950060560868]
Swin Transformerは階層アーキテクチャとシフトウィンドウを使用して、様々な視覚タスクで新しい記録を樹立した。我々はSSformerと呼ばれる軽量で効果的なトランスモデルを設計する。実験の結果,提案したSSformerは最先端モデルと同等のmIoU性能が得られることがわかった。
論文参考訳（メタデータ） (2022-08-03T12:57:00Z)
A Simple Single-Scale Vision Transformer for Object Localization and Instance Segmentation [79.265315267391]
We propose a simple and compact ViT architecture called Universal Vision Transformer (UViT)。 UViTは、オブジェクト検出とインスタンスセグメンテーションタスクで強力なパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-12-17T20:11:56Z)
Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文参考訳（メタデータ） (2021-06-08T05:15:28Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
GSTO: Gated Scale-Transfer Operation for Multi-Scale Feature Learning in Pixel Labeling [92.90448357454274]
本稿では,空間教師付き機能を他のスケールに適切に移行するためのGated Scale-Transfer Operation (GSTO)を提案する。 GSTOをHRNetにプラグインすることで、ピクセルラベリングの強力なバックボーンが得られます。実験の結果,GSTOはマルチスケール機能アグリゲーションモジュールの性能を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2020-05-27T13:46:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。