論文の概要: Cross-Layer Attentive Feature Upsampling for Low-latency Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2601.01167v1
- Date: Sat, 03 Jan 2026 12:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.062244
- Title: Cross-Layer Attentive Feature Upsampling for Low-latency Semantic Segmentation
- Title(参考訳): 低レイテンシセマンティックセマンティックセグメンテーションのためのクロスレイアテンテーティブ・フィーチャ・アップサンプリング
- Authors: Tianheng Cheng, Xinggang Wang, Junchao Liao, Wenyu Liu,
- Abstract要約: 本稿では,高精細度特徴とセマンティック特徴を適応的に補間するためのガイド付き注意補間(GAI)を提案する。
GAIは、解像度の異なる特徴から画素の空間的関係と意味的関係を判定し、これらの関係を利用してリッチな意味論で高解像度特徴を補間する。
実験では、GAINと呼ばれるGAIベースのセマンティックセグメンテーションネットワークは、Cityscapesで22.3 FPSの78.8 mIoU、CamVidで64.5の80.6 mIoUをNVIDIA 1080Ti GPUで達成できる。
- 参考スコア(独自算出の注目度): 52.01210390327581
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic segmentation is a fundamental problem in computer vision and it requires high-resolution feature maps for dense prediction. Current coordinate-guided low-resolution feature interpolation methods, e.g., bilinear interpolation, produce coarse high-resolution features which suffer from feature misalignment and insufficient context information. Moreover, enriching semantics to high-resolution features requires a high computation burden, so that it is challenging to meet the requirement of lowlatency inference. We propose a novel Guided Attentive Interpolation (GAI) method to adaptively interpolate fine-grained high-resolution features with semantic features to tackle these issues. Guided Attentive Interpolation determines both spatial and semantic relations of pixels from features of different resolutions and then leverages these relations to interpolate high-resolution features with rich semantics. GAI can be integrated with any deep convolutional network for efficient semantic segmentation. In experiments, the GAI-based semantic segmentation networks, i.e., GAIN, can achieve78.8 mIoU with 22.3 FPS on Cityscapes and 80.6 mIoU with 64.5 on CamVid using an NVIDIA 1080Ti GPU, which are the new state-of-the-art results of low-latency semantic segmentation. Code and models are available at: https://github.com/hustvl/simpleseg.
- Abstract(参考訳): セマンティックセグメンテーションはコンピュータビジョンの基本的な問題であり、密度予測のために高解像度の特徴写像を必要とする。
現在の座標誘導型低分解能特徴補間法(例えば、双線形補間)は、特徴の不整合や文脈情報の不十分な粗い高分解能特徴を生成する。
さらに、セマンティクスを高解像度化するためには、高い計算負担を必要とするため、低遅延推論の要件を満たすことは困難である。
本稿では,これらの問題に対処する意味的特徴を持つ細粒度高解像度特徴を適応的に補間するガイド付き注意補間法を提案する。
Guided Attentive Interpolationは、解像度の異なる特徴から画素の空間的および意味的関係を判定し、これらの関係を利用してリッチなセマンティクスで高解像度特徴を補間する。
GAIは、効率的なセマンティックセグメンテーションのために、どんな深層畳み込みネットワークとも統合できる。
実験では、GAINと呼ばれるGAIベースのセマンティックセグメンテーションネットワークは、Cityscapes上で22.3 FPSの78.8 mIoU、CamVid上で64.5の80.6 mIoUを達成することができる。
コードとモデルは、https://github.com/hustvl/simpleseg.comで入手できる。
関連論文リスト
- Scale-DiT: Ultra-High-Resolution Image Generation with Hierarchical Local Attention [50.391914489898774]
Scale-DiTは、階層的な局所的注意を低解像度のグローバルガイダンスで導入する新しい拡散フレームワークである。
軽量なLoRA適応は、デノナイズ中のグローバルパスとローカルパスをブリッジし、構造と詳細の整合性を確保する。
実験によると、Scale-DiTは2ドル以上の高速な推論とメモリ使用量の削減を実現している。
論文 参考訳(メタデータ) (2025-10-18T03:15:26Z) - Project-and-Fuse: Improving RGB-D Semantic Segmentation via Graph Convolution Networks [18.064378925844895]
テクスチャの特徴によって幾何的特徴注入を導出する後期融合スタイルの2つのモードから特徴を融合する。
3D特徴抽出の段階では,従来のCNNは深度マップでは十分ではない。
プロジェクション行列生成段階では、元のパイプラインにバイアス・アサインメントとアンビグラス・ローカリティの問題が存在することが分かる。
論文 参考訳(メタデータ) (2025-01-31T02:24:13Z) - Learning Implicit Feature Alignment Function for Semantic Segmentation [51.36809814890326]
Implicit Feature Alignment Function (IFA)は、暗黙の神経表現の急速に拡大するトピックにインスパイアされている。
IFAは機能マップを異なるレベルで暗黙的に整列し、任意の解像度でセグメンテーションマップを生成することができることを示す。
提案手法は,様々なアーキテクチャの改善と組み合わせて,一般的なベンチマークにおける最先端の精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-06-17T09:40:14Z) - Boundary Corrected Multi-scale Fusion Network for Real-time Semantic
Segmentation [15.879949436633021]
既存のセマンティックセグメンテーション法は高い精度を達成するために高解像度の入力に依存しており、推論時間の要件を満たしていない。
設計した低分解能多スケール核融合モジュールを用いて意味情報を抽出する境界補正多スケール核融合ネットワークを提案する。
本手法は,リアルタイムセマンティックセグメンテーションの精度と速度の最先端バランスを実現する。
論文 参考訳(メタデータ) (2022-03-01T13:31:01Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z) - Adaptive Linear Span Network for Object Skeleton Detection [56.78705071830965]
本研究では,適応線形スパンネットワーク(AdaLSN)を提案する。
AdaLSNは、精度とレイテンシのトレードオフを著しく高めることで、その汎用性を裏付ける。
また、エッジ検出や道路抽出といったイメージ・ツー・マスクのタスクに適用可能であることも示している。
論文 参考訳(メタデータ) (2020-11-08T12:51:14Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z) - FarSee-Net: Real-Time Semantic Segmentation by Efficient Multi-scale
Context Aggregation and Feature Space Super-resolution [14.226301825772174]
Cascaded Factorized Atrous Space Pyramid Pooling (CF-ASPP) と呼ばれる新しい効率的なモジュールについて紹介する。
これは畳み込みニューラルネットワーク(CNN)のための軽量なカスケード構造であり、コンテキスト情報を効率的に活用する。
我々は1枚のNivida Titan X (Maxwell) GPUカードでCityscapesテストセットの84fpsで68.4% mIoUを達成した。
論文 参考訳(メタデータ) (2020-03-09T03:53:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。