論文の概要: Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network
- arxiv url: http://arxiv.org/abs/2410.02224v1
- Date: Thu, 03 Oct 2024 05:45:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 17:54:07.623689
- Title: Efficient Semantic Segmentation via Lightweight Multiple-Information Interaction Network
- Title(参考訳): 軽量多情報インタラクションネットワークによる効率的なセマンティックセグメンテーション
- Authors: Yangyang Qiu, Guoan Xu, Guangwei Gao, Zhenhua Guo, Yi Yu, Chia-Wen Lin,
- Abstract要約: LMIINetと呼ばれるリアルタイムセマンティックセグメンテーションのための軽量な多重情報インタラクションネットワークを提案する。
CNNとTransformerを効果的に組み合わせ、冗長な計算とメモリフットプリントを削減する。
0.72Mパラメータと11.74G FLOPsで、LMIINetはシティスケープのテストセットで100 FPSで72.0% mIoU、CamVidデータセットで160 FPSで69.94% mIoUを達成した。
- 参考スコア(独自算出の注目度): 37.84039482457571
- License:
- Abstract: Recently, the integration of the local modeling capabilities of Convolutional Neural Networks (CNNs) with the global dependency strengths of Transformers has created a sensation in the semantic segmentation community. However, substantial computational workloads and high hardware memory demands remain major obstacles to their further application in real-time scenarios. In this work, we propose a lightweight multiple-information interaction network for real-time semantic segmentation, called LMIINet, which effectively combines CNNs and Transformers while reducing redundant computations and memory footprint. It features Lightweight Feature Interaction Bottleneck (LFIB) modules comprising efficient convolutions that enhance context integration. Additionally, improvements are made to the Flatten Transformer by enhancing local and global feature interaction to capture detailed semantic information. The incorporation of a combination coefficient learning scheme in both LFIB and Transformer blocks facilitates improved feature interaction. Extensive experiments demonstrate that LMIINet excels in balancing accuracy and efficiency. With only 0.72M parameters and 11.74G FLOPs, LMIINet achieves 72.0% mIoU at 100 FPS on the Cityscapes test set and 69.94% mIoU at 160 FPS on the CamVid test dataset using a single RTX2080Ti GPU.
- Abstract(参考訳): 近年,畳み込みニューラルネットワーク(CNN)の局所モデリング機能とトランスフォーマーのグローバル依存性強度の統合により,セマンティックセグメンテーションコミュニティにセンセーションが生まれている。
しかし、大規模な計算ワークロードと高いハードウェアメモリ要求は、リアルタイムシナリオにおける彼らのさらなる応用の大きな障害のままである。
本研究では,CNNとトランスフォーマーを効果的に組み合わせ,冗長計算やメモリフットプリントを削減した,LMIINetと呼ばれる,リアルタイムセマンティックセマンティックセグメンテーションのための軽量なマルチ情報インタラクションネットワークを提案する。
Lightweight Feature Interaction Bottleneck (LFIB)モジュールは、コンテキスト統合を強化する効率的な畳み込みで構成されている。
さらに、Flatten Transformerは、ローカルとグローバルの機能インタラクションを拡張して、詳細なセマンティック情報をキャプチャすることで改善されている。
LFIBブロックとTransformerブロックの両方に組合せ係数学習スキームを組み込むことにより、特徴の相互作用が改善される。
大規模な実験により、LMIINetは精度と効率のバランスが優れていることが示された。
0.72Mパラメータと11.74G FLOPsで、LMIINetはCityscapesテストセットで100 FPSで72.0% mIoU、CamVidテストデータセットで1つのRTX2080Ti GPUを使用して160 FPSで69.94% mIoUを達成した。
関連論文リスト
- HAFormer: Unleashing the Power of Hierarchy-Aware Features for Lightweight Semantic Segmentation [11.334990474402915]
本稿では,CNNの階層的特徴抽出能力とTransformerのグローバル依存性モデリング機能を組み合わせたモデルであるHAFormerを紹介する。
HAFormerは計算オーバーヘッドを最小限に抑え、コンパクトなモデルサイズで高性能を実現する。
論文 参考訳(メタデータ) (2024-07-10T07:53:24Z) - TransXNet: Learning Both Global and Local Dynamics with a Dual Dynamic
Token Mixer for Visual Recognition [71.6546914957701]
本稿では,グローバルな情報と局所的な詳細を入力依存の方法で集約する軽量なDual Dynamic Token Mixer (D-Mixer)を提案する。
我々は、新しいハイブリッドCNN-TransformerビジョンバックボーンネットワークであるTransXNetを設計するために、基本的なビルディングブロックとしてD-Mixerを使用している。
ImageNet-1Kの画像分類タスクでは、TransXNet-TはSwing-Tを0.3%上回り、計算コストの半分以下である。
論文 参考訳(メタデータ) (2023-10-30T09:35:56Z) - Efficient Remote Sensing Segmentation With Generative Adversarial
Transformer [5.728847418491545]
本稿では,高精度なセマンティックセマンティックセグメンテーションを実現するためのGATrans(Generative Adversarial Transfomer)を提案する。
このフレームワークはGTNet(Global Transformer Network)をジェネレータとして利用し、マルチレベル機能を効率的に抽出する。
ベイヒンゲンデータセットの広範囲な実験により、我々のアプローチの有効性を検証し、平均F1スコアは90.17%、総合精度は91.92%に達した。
論文 参考訳(メタデータ) (2023-10-02T15:46:59Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - Lightweight Real-time Semantic Segmentation Network with Efficient
Transformer and CNN [34.020978009518245]
LETNetと呼ばれる軽量なリアルタイムセマンティックセグメンテーションネットワークを提案する。
LETNetは、U字型のCNNとTransformerをカプセル埋め込みスタイルで効果的に組み合わせ、それぞれの欠陥を補う。
挑戦的なデータセットで実施された実験は、LETNetが精度と効率のバランスにおいて優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-02-21T07:16:53Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - IIP-Transformer: Intra-Inter-Part Transformer for Skeleton-Based Action
Recognition [0.5953569982292298]
骨格型行動認識タスクのための新しいトランスフォーマーベースネットワーク(IIP-Transformer)を提案する。
個々の関節間の相互作用を利用する代わりに、IIP-Transformerは体の関節と部分の相互作用を同時に組み込む。
提案した IIP-Transformer は,DSTA-Net よりも8倍以上の計算量で最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-10-26T03:24:22Z) - Container: Context Aggregation Network [83.12004501984043]
最近の発見は、従来の畳み込みやトランスフォーマーコンポーネントを使わずに、シンプルなベースのソリューションが効果的な視覚表現を生成できることを示している。
マルチヘッドコンテキストアグリゲーションのための汎用ビルディングブロックCONText Ion NERtwokを提案する。
より大規模な入力画像解像度に依存する下流タスクにはスケールしないTransformerベースの手法とは対照的に、当社の効率的なネットワークであるModellightは、オブジェクト検出やインスタンスセグメンテーションネットワークに利用することができる。
論文 参考訳(メタデータ) (2021-06-02T18:09:11Z) - MSCFNet: A Lightweight Network With Multi-Scale Context Fusion for
Real-Time Semantic Segmentation [27.232578592161673]
マルチスケールコンテキスト融合スキーム(MSCFNet)を用いた新しい軽量ネットワークを考案する。
提案されたMSCFNetは1.15Mパラメータのみを含み、71.9%のMean IoUを実現し、1つのTitan XP GPU構成で50 FPS以上で実行できる。
論文 参考訳(メタデータ) (2021-03-24T08:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。