Fugu-MT 論文翻訳(概要): Lightweight Real-time Semantic Segmentation Network with Efficient Transformer and CNN

論文の概要: Lightweight Real-time Semantic Segmentation Network with Efficient Transformer and CNN

arxiv url: http://arxiv.org/abs/2302.10484v1
Date: Tue, 21 Feb 2023 07:16:53 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-22 16:07:10.751822
Title: Lightweight Real-time Semantic Segmentation Network with Efficient Transformer and CNN
Title（参考訳）: 効率的なトランスフォーマーとcnnを用いた軽量リアルタイム意味セグメンテーションネットワーク
Authors: Guoan Xu, Juncheng Li, Guangwei Gao, Huimin Lu, Jian Yang, and Dong Yue
Abstract要約: LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。 LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
参考スコア（独自算出の注目度）: 34.020978009518245
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the past decade, convolutional neural networks (CNNs) have shown prominence for semantic segmentation. Although CNN models have very impressive performance, the ability to capture global representation is still insufficient, which results in suboptimal results. Recently, Transformer achieved huge success in NLP tasks, demonstrating its advantages in modeling long-range dependency. Recently, Transformer has also attracted tremendous attention from computer vision researchers who reformulate the image processing tasks as a sequence-to-sequence prediction but resulted in deteriorating local feature details. In this work, we propose a lightweight real-time semantic segmentation network called LETNet. LETNet combines a U-shaped CNN with Transformer effectively in a capsule embedding style to compensate for respective deficiencies. Meanwhile, the elaborately designed Lightweight Dilated Bottleneck (LDB) module and Feature Enhancement (FE) module cultivate a positive impact on training from scratch simultaneously. Extensive experiments performed on challenging datasets demonstrate that LETNet achieves superior performances in accuracy and efficiency balance. Specifically, It only contains 0.95M parameters and 13.6G FLOPs but yields 72.8\% mIoU at 120 FPS on the Cityscapes test set and 70.5\% mIoU at 250 FPS on the CamVid test dataset using a single RTX 3090 GPU. The source code will be available at https://github.com/IVIPLab/LETNet.
Abstract（参考訳）: 過去10年間で、畳み込みニューラルネットワーク(CNN)はセマンティックセグメンテーションの優位性を示している。 CNNモデルは非常に優れた性能を持つが、グローバル表現をキャプチャする能力は依然として不十分であり、結果として準最適結果が得られる。最近、TransformerはNLPタスクで大きな成功をおさめ、長距離依存性のモデリングの利点を示している。近年、Transformerは画像処理タスクをシーケンス・ツー・シーケンスの予測として再構成するコンピュータビジョン研究者からも大きな注目を集めている。本稿では,letnet と呼ばれる軽量なリアルタイムセマンティクスセグメンテーションネットワークを提案する。 LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。一方、精巧に設計された軽量Dilated Bottleneck(LDB)モジュールとFeature Enhancement(FE)モジュールは、同時にスクラッチからトレーニングに肯定的な影響を与える。挑戦的なデータセットで行った広範囲な実験は、letnetが精度と効率のバランスにおいて優れたパフォーマンスを達成していることを示している。具体的には、0.95Mパラメータと13.6G FLOPのみを含むが、Cityscapesテストセットで120 FPSで72.8\% mIoU、CamVidテストデータセットで1つのRTX 3090 GPUを使用して250 FPSで70.5\% mIoUが得られる。ソースコードはhttps://github.com/IVIPLab/LETNetで入手できる。

関連論文リスト

ECMNet:Lightweight Semantic Segmentation with Efficient CNN-Mamba Network [0.0]
ECMNetはCNNとMambaをカプセルベースのフレームワークで巧みに組み合わせて、補完的な弱点に対処する。提案されたモデルは精度と効率のバランスに優れており、Cityscapesでは70.6% mIoU、CamVidテストデータセットでは73.6% mIoUを達成している。
論文参考訳（メタデータ） (2025-06-10T09:44:23Z)
CTA-Net: A CNN-Transformer Aggregation Network for Improving Multi-Scale Feature Extraction [14.377544481394013]
CTA-NetはCNNとViTを組み合わせて、長距離依存関係をキャプチャするトランスフォーマーと、ローカライズされた特徴を抽出するCNNを備えている。この統合により、詳細なローカルおよびより広いコンテキスト情報の効率的な処理が可能になる。 10万以上のサンプルを持つ小規模データセットの実験は、CTA-Netが優れたパフォーマンスを実現していることを示している。
論文参考訳（メタデータ） (2024-10-15T09:27:26Z)
Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network [37.84039482457571]
LMIINetと呼ばれるリアルタイムセマンティックセグメンテーションのための軽量な多重情報インタラクションネットワークを提案する。 CNNとTransformerを効果的に組み合わせ、冗長な計算とメモリフットプリントを削減する。 0.72Mパラメータと11.74G FLOPsで、LMIINetはシティスケープのテストセットで100 FPSで72.0% mIoU、CamVidデータセットで160 FPSで69.94% mIoUを達成した。
論文参考訳（メタデータ） (2024-10-03T05:45:24Z)
HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。 HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文参考訳（メタデータ） (2024-07-10T07:53:24Z)
OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文参考訳（メタデータ） (2024-03-21T14:06:38Z)
InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文参考訳（メタデータ） (2022-11-10T18:59:04Z)
RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer [63.25665813125223]
本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。 CNNベースのモデルよりもパフォーマンスと効率のトレードオフが優れている。主要なベンチマーク実験では,提案したRTFormerの有効性を示す。
論文参考訳（メタデータ） (2022-10-13T16:03:53Z)
Pixel Difference Networks for Efficient Edge Detection [71.03915957914532]
本稿では,Pixel Difference Network (PiDiNet) という軽量かつ効率的なエッジ検出アーキテクチャを提案する。 BSDS500、NYUD、Multicueのデータセットに関する大規模な実験が、その効果を示すために提供されている。 0.1M未満のパラメータを持つPiDiNetのより高速なバージョンは、200FPSのアーティファクトで同等のパフォーマンスを達成できる。
論文参考訳（メタデータ） (2021-08-16T10:42:59Z)
VOLO: Vision Outlooker for Visual Recognition [148.12522298731807]
視覚変換器 (ViT) はイメージネット分類において自己注意に基づくモデルの可能性を示している。我々は、新しい展望の展望を導入し、VoLO(Vision Outlooker)と呼ばれる、シンプルで一般的なアーキテクチャを提示する。グローバルな依存性モデリングを粗いレベルで重視する自己注意とは異なり、展望はより詳細な機能やコンテキストをトークンに効率的にエンコードする。実験の結果、私たちのVOLOはImageNet-1K分類で87.1%のトップ1の精度を達成しており、これはこの競合ベンチマークで87%以上の精度で最初のモデルである。
論文参考訳（メタデータ） (2021-06-24T15:46:54Z)
Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文参考訳（メタデータ） (2021-06-02T18:09:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。