論文の概要: RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer
- arxiv url: http://arxiv.org/abs/2210.07124v1
- Date: Thu, 13 Oct 2022 16:03:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 16:34:54.827286
- Title: RTFormer: Efficient Design for Real-Time Semantic Segmentation with
Transformer
- Title(参考訳): rtformer:transformerを用いたリアルタイム意味セグメンテーションの効率的な設計
- Authors: Jian Wang, Chenhui Gou, Qiman Wu, Haocheng Feng, Junyu Han, Errui
Ding, Jingdong Wang
- Abstract要約: 本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。
主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
- 参考スコア(独自算出の注目度): 63.25665813125223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, transformer-based networks have shown impressive results in
semantic segmentation. Yet for real-time semantic segmentation, pure CNN-based
approaches still dominate in this field, due to the time-consuming computation
mechanism of transformer. We propose RTFormer, an efficient dual-resolution
transformer for real-time semantic segmenation, which achieves better trade-off
between performance and efficiency than CNN-based models. To achieve high
inference efficiency on GPU-like devices, our RTFormer leverages GPU-Friendly
Attention with linear complexity and discards the multi-head mechanism.
Besides, we find that cross-resolution attention is more efficient to gather
global context information for high-resolution branch by spreading the high
level knowledge learned from low-resolution branch. Extensive experiments on
mainstream benchmarks demonstrate the effectiveness of our proposed RTFormer,
it achieves state-of-the-art on Cityscapes, CamVid and COCOStuff, and shows
promising results on ADE20K. Code is available at PaddleSeg:
https://github.com/PaddlePaddle/PaddleSeg.
- Abstract(参考訳): 近年,トランスフォーマーネットワークはセマンティックセグメンテーションにおいて顕著な成果を上げている。
しかし、リアルタイムセマンティックセグメンテーションでは、トランスフォーマーの時間を要する計算機構のため、純粋なCNNベースのアプローチがこの分野で依然として優位である。
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。
GPUライクなデバイスで高い推論効率を達成するため、RTFormerはGPUフレンドリーな注意を線形複雑性で利用し、マルチヘッドメカニズムを破棄します。
さらに,低分解能分岐から学習した高次知識を広めることにより,高分解能分岐のグローバルな文脈情報収集の効率化が期待できる。
提案するrtformerの有効性を実証し,都市景観,camvid,cocostuffの最先端技術を実現し,ade20kで有望な結果を得た。
コードはPaddleSegのhttps://github.com/PaddlePaddle/PaddleSegで入手できる。
関連論文リスト
- CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - Efficient Remote Sensing Segmentation With Generative Adversarial
Transformer [5.728847418491545]
本稿では,高精度なセマンティックセマンティックセグメンテーションを実現するためのGATrans(Generative Adversarial Transfomer)を提案する。
このフレームワークはGTNet(Global Transformer Network)をジェネレータとして利用し、マルチレベル機能を効率的に抽出する。
ベイヒンゲンデータセットの広範囲な実験により、我々のアプローチの有効性を検証し、平均F1スコアは90.17%、総合精度は91.92%に達した。
論文 参考訳(メタデータ) (2023-10-02T15:46:59Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - MISSU: 3D Medical Image Segmentation via Self-distilling TransUNet [55.16833099336073]
医用画像セグメンテーションのためのトランスフォーマーベースUNetを提案する。
グローバルな意味情報と局所的な空間的詳細特徴を同時に学習する。
MISSUは従来の最先端手法よりも優れた性能を発揮する。
論文 参考訳(メタデータ) (2022-06-02T07:38:53Z) - Lawin Transformer: Improving Semantic Segmentation Transformer with
Multi-Scale Representations via Large Window Attention [16.75003034164463]
マルチスケール表現はセマンティックセグメンテーションに不可欠である。
本稿では,ウィンドウアテンション機構を用いたセマンティックセグメンテーション ViT にマルチスケール表現を導入する。
得られたViTであるLawin Transformerは、エンコーダとしてHVT、デコーダとしてLawinASPPから構成される。
論文 参考訳(メタデータ) (2022-01-05T13:51:20Z) - Real-time Semantic Segmentation with Fast Attention [94.88466483540692]
本稿では,高解像度画像と映像をリアルタイムにセマンティックセグメンテーションするための新しいアーキテクチャを提案する。
提案したアーキテクチャは我々の空間的注意の速さに依存しており、これは一般的な自己注意機構の単純かつ効率的な修正である。
複数のデータセットに対する結果から,既存の手法に比べて精度と速度が向上し,優れた性能を示した。
論文 参考訳(メタデータ) (2020-07-07T22:37:16Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。