論文の概要: BEVANet: Bilateral Efficient Visual Attention Network for Real-Time Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2508.07300v1
- Date: Sun, 10 Aug 2025 11:24:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.798113
- Title: BEVANet: Bilateral Efficient Visual Attention Network for Real-Time Semantic Segmentation
- Title(参考訳): BEVANet:リアルタイムセマンティックセグメンテーションのための双方向視覚注意ネットワーク
- Authors: Ping-Mao Huang, I-Tien Chao, Ping-Chia Huang, Jia-Wei Liao, Yung-Yu Chuang,
- Abstract要約: 視覚変換器は長距離依存を効果的にモデル化するが、計算コストが高い。
提案するバイラテラル・エフェクト・ビジュアル・アテンション・ネットワーク(BEVANet)は,コンテキスト情報を取得するために受容領域を拡張する。
BEVANetは33 FPSでリアルタイムセグメンテーションを実現し、事前トレーニングなしで79.3% mIoU、ImageNet事前トレーニング後に81.0% mIoUとなる。
- 参考スコア(独自算出の注目度): 13.410095987511625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time semantic segmentation presents the dual challenge of designing efficient architectures that capture large receptive fields for semantic understanding while also refining detailed contours. Vision transformers model long-range dependencies effectively but incur high computational cost. To address these challenges, we introduce the Large Kernel Attention (LKA) mechanism. Our proposed Bilateral Efficient Visual Attention Network (BEVANet) expands the receptive field to capture contextual information and extracts visual and structural features using Sparse Decomposed Large Separable Kernel Attentions (SDLSKA). The Comprehensive Kernel Selection (CKS) mechanism dynamically adapts the receptive field to further enhance performance. Furthermore, the Deep Large Kernel Pyramid Pooling Module (DLKPPM) enriches contextual features by synergistically combining dilated convolutions and large kernel attention. The bilateral architecture facilitates frequent branch communication, and the Boundary Guided Adaptive Fusion (BGAF) module enhances boundary delineation by integrating spatial and semantic features under boundary guidance. BEVANet achieves real-time segmentation at 33 FPS, yielding 79.3% mIoU without pretraining and 81.0% mIoU on Cityscapes after ImageNet pretraining, demonstrating state-of-the-art performance. The code and model is available at https://github.com/maomao0819/BEVANet.
- Abstract(参考訳): リアルタイムセマンティックセグメンテーション(Real-time semantic segmentation)は、セマンティック理解のために大きな受容領域を捉えながら詳細な輪郭を精細化する効率的なアーキテクチャを設計する、という2つの課題を示す。
視覚変換器は長距離依存を効果的にモデル化するが、計算コストが高い。
これらの課題に対処するために,Large Kernel Attention(LKA)機構を導入する。
提案するバイラテラル・エフェクト・ビジュアル・アテンション・ネットワーク(BEVANet)は,コンテキスト情報を取得するために受容領域を拡張し,Sparse Decomposed Large Separable Kernel Attentions (SDLSKA)を用いて視覚的・構造的特徴を抽出する。
Comprehensive Kernel Selection (CKS) メカニズムは、受信フィールドを動的に適応させ、パフォーマンスをさらに向上させる。
さらに、Deep Large Kernel Pyramid Pooling Module (DLKPPM)は、拡張畳み込みと大きなカーネルの注意を相乗的に組み合わせることで、コンテキスト特徴を充実させる。
双方向アーキテクチャは分岐通信を頻繁に促進し、境界誘導適応融合(BGAF)モジュールは境界誘導の下で空間的特徴と意味的特徴を統合することによって境界線を拡大する。
BEVANetは33 FPSでリアルタイムセグメンテーションを実現し、事前トレーニングなしで79.3% mIoU、ImageNet事前トレーニング後に81.0% mIoUとなり、最先端のパフォーマンスを示している。
コードとモデルはhttps://github.com/maomao0819/BEVANetで公開されている。
関連論文リスト
- RPCANet++: Deep Interpretable Robust PCA for Sparse Object Segmentation [51.37553739930992]
RPCANet++は、RPCAの解釈可能性と効率的なディープアーキテクチャを融合したスパースオブジェクトセグメンテーションフレームワークである。
我々のアプローチは、緩やかなRPCAモデルを背景近似モジュール(BAM)、対象抽出モジュール(OEM)、画像復元モジュール(IRM)からなる構造化ネットワークに展開する。
さまざまなデータセットの実験では、RPCANet++がさまざまなイメージングシナリオの下で最先端のパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2025-08-06T08:19:37Z) - Efficient Event-Based Semantic Segmentation via Exploiting Frame-Event Fusion: A Hybrid Neural Network Approach [13.681130802391223]
イベントカメラは、その高時間分解能とその他の有利な性質により、画像セマンティックセグメンテーションに導入されている。
本稿では、イベントのためのスパイキングネットワークブランチと、フレームのためのニューラルネットワークブランチからなる、画像セマンティックセグメンテーションのための効率的なハイブリッドフレームワークを提案する。
具体的には,これら2つのブランチ間の相互作用を促進するために,Adaptive Temporal Weighting (ATW), Event-Driven Sparse (EDS), Channel Selection Fusion (CSF)モジュールの3つの特別なモジュールを紹介する。
論文 参考訳(メタデータ) (2025-07-04T18:30:28Z) - CFMD: Dynamic Cross-layer Feature Fusion for Salient Object Detection [7.262250906929891]
クロス層機能ピラミッドネットワーク(CFPN)は,多層機能融合と境界詳細保存において顕著な進歩を遂げている。
これらの課題に対処するために,CFMDという,2つの重要なイノベーションを取り入れた,新しいクロスレイヤ機能ピラミッドネットワークを提案する。
まず,現在最先端のMambaアーキテクチャを組み込んで動的重み分布機構を構築するコンテキスト認識機能集約モジュール(CFLMA)を設計する。
第2に,分解能回復時に空間的詳細を保存する適応動的アップサンプリングユニット(CFLMD)を導入する。
論文 参考訳(メタデータ) (2025-04-02T03:22:36Z) - ContextFormer: Redefining Efficiency in Semantic Segmentation [48.81126061219231]
畳み込み法は、局所的な依存関係をうまく捉えるが、長距離関係に苦慮する。
ビジョントランスフォーマー(ViT)は、グローバルなコンテキストキャプチャでは優れるが、高い計算要求によって妨げられる。
我々は,リアルタイムセマンティックセグメンテーションの効率,精度,堅牢性のバランスをとるために,CNN と ViT の強みを活用したハイブリッドフレームワーク ContextFormer を提案する。
論文 参考訳(メタデータ) (2025-01-31T16:11:04Z) - Efficiently Expanding Receptive Fields: Local Split Attention and Parallel Aggregation for Enhanced Large-scale Point Cloud Semantic Segmentation [7.199090922071512]
本研究では,複数の局所分割操作を通じて受容領域を効果的に拡張するLSAP機構を提案する。
本研究では,大規模クラウドセマンティックセマンティックセグメンテーションのための新しいフレームワークLSNetを提案する。
LSNetは3つのベンチマークデータセット上の最先端セマンティックセグメンテーションネットワークよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-09-03T07:10:20Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - Boundary-Aware Segmentation Network for Mobile and Web Applications [60.815545591314915]
境界認識ネットワーク(basnet)は、精度の高い画像分割のための予測再定義アーキテクチャとハイブリッド損失と統合されている。
basnetは単一のgpu上で70fps以上動作し、多くの潜在的なアプリケーションが利用できる。
BASNetをベースに、BASNetが「COPY」と「PASTING」現実世界のオブジェクトのための拡張現実であるAR COPY & PASTEと、オブジェクト背景の自動削除のためのWebベースのツールであるOBJECT CUTの2つの(近い)商用アプリケーションをさらに開発しました。
論文 参考訳(メタデータ) (2021-01-12T19:20:26Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。