論文の概要: A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection
- arxiv url: http://arxiv.org/abs/2012.10162v1
- Date: Fri, 18 Dec 2020 10:51:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:12:01.705173
- Title: A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection
- Title(参考訳): 深部表現学習のためのホリスティック誘導デコーダと意味セグメンテーションとオブジェクト検出への応用
- Authors: Jianbo Liu, Sijie Ren, Yuanjie Zheng, Xiaogang Wang, Hongsheng Li
- Abstract要約: 一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
- 参考スコア(独自算出の注目度): 74.88284082187462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Both high-level and high-resolution feature representations are of great
importance in various visual understanding tasks. To acquire high-resolution
feature maps with high-level semantic information, one common strategy is to
adopt dilated convolutions in the backbone networks to extract high-resolution
feature maps, such as the dilatedFCN-based methods for semantic segmentation.
However, due to many convolution operations are conducted on the
high-resolution feature maps, such methods have large computational complexity
and memory consumption. In this paper, we propose one novel holistically-guided
decoder which is introduced to obtain the high-resolution semantic-rich feature
maps via the multi-scale features from the encoder. The decoding is achieved
via novel holistic codeword generation and codeword assembly operations, which
take advantages of both the high-level and low-level features from the encoder
features. With the proposed holistically-guided decoder, we implement the
EfficientFCN architecture for semantic segmentation and HGD-FPN for object
detection and instance segmentation. The EfficientFCN achieves comparable or
even better performance than state-of-the-art methods with only 1/3 of their
computational costs for semantic segmentation on PASCAL Context, PASCAL VOC,
ADE20K datasets. Meanwhile, the proposed HGD-FPN achieves $>2\%$ higher mean
Average Precision (mAP) when integrated into several object detection
frameworks with ResNet-50 encoding backbones.
- Abstract(参考訳): 高レベルかつ高解像度な特徴表現は、様々な視覚的理解タスクにおいて非常に重要である。
高レベルのセマンティック情報を持つ高解像度特徴写像を得るために、バックボーンネットワークに拡張畳み込みを導入し、セマンティックセグメンテーションのための拡張FCN法のような高解像度特徴写像を抽出する。
しかし、多くの畳み込み操作が高分解能特徴マップ上で実行されるため、そのような手法は計算の複雑さとメモリ消費が大きい。
本稿では,エンコーダからマルチスケール機能を介して高分解能なセマンティクスリッチ特徴マップを得るために導入された,新たなホリスティック誘導デコーダを提案する。
このデコーディングは、エンコーダの機能から高レベルと低レベルの両方の機能の利点を生かした、新しい総合的なコードワード生成とコードワードアセンブリ操作によって実現される。
提案手法では, セマンティックセグメンテーションのための効率的なFCNアーキテクチャとオブジェクト検出とインスタンスセグメンテーションのためのHGD-FPNを実装した。
EfficientFCNは、PASCAL Context, PASCAL VOC, ADE20Kデータセット上のセマンティックセグメンテーションの計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
一方、提案されたHGD-FPNは、ResNet-50エンコードバックボーンで複数のオブジェクト検出フレームワークに統合された場合、平均平均精度(mAP)が$>2\%以上に達する。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - MacFormer: Semantic Segmentation with Fine Object Boundaries [38.430631361558426]
新しいセマンティックセグメンテーションアーキテクチャであるMacFormer'を導入する。
まず、学習可能なエージェントトークンを使用することで、Mutual Agent Cross-Attention(MACA)メカニズムは、エンコーダ層とデコーダ層をまたいだ機能の双方向統合を効果的に実現する。
第二に、デコーダ内の周波数拡張モジュール(FEM)は高周波および低周波成分を活用して周波数領域の特徴を高める。
MacFormerはさまざまなネットワークアーキテクチャと互換性があり、ADE20KベンチマークとCityscapesの精度と効率の両方で既存のメソッドより優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-11T05:36:10Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation [14.450329809640422]
医用画像分割のための新しい堅牢で効率的なU-Net変種であるU-Net v2を紹介する。
セマンティックな情報を低レベルの機能に注入し、同時に細かな詳細で高レベルの機能を改善することを目的としている。
論文 参考訳(メタデータ) (2023-11-29T16:35:24Z) - PointHR: Exploring High-Resolution Architectures for 3D Point Cloud
Segmentation [77.44144260601182]
3Dポイントクラウドセグメンテーションのための高分解能アーキテクチャについて検討する。
我々は、特徴抽出のためのknnベースのシーケンス演算子と差分再サンプリング演算子を含む、PointHRという名前の統一パイプラインを提案する。
S3DISとScanNetV2データセットを用いて,これらのアーキテクチャを高密度点雲解析のために評価する。
論文 参考訳(メタデータ) (2023-10-11T09:29:17Z) - LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using
Multi-Scale Convolution Attention [0.0]
本稿では,LDARに基づくセマンティックセマンティックセマンティクスのためのエンコーダデコーダ構造を持つLENetと呼ばれるプロジェクションベースのセマンティクスセマンティクスセマンティクスネットワークを提案する。
エンコーダは、特徴を捉えるために、様々な受信フィールドサイズを持つ新しいマルチスケール・コンボリューション・アテンション(MSCA)モジュールで構成されている。
提案手法は, 最先端のセマンティックセグメンテーション法と比較して, 軽量で, 効率的で, 堅牢であることを示す。
論文 参考訳(メタデータ) (2023-01-11T02:51:38Z) - Attention guided global enhancement and local refinement network for
semantic segmentation [5.881350024099048]
エンコーダ・デコーダアーキテクチャを用いて,軽量なセマンティックセマンティックセマンティクスネットワークを開発した。
高レベル特徴マップからグローバル情報を集約するグローバルエンハンスメント手法を提案する。
ローカルリファインメントモジュールは、デコーダ機能をセマンティックガイダンスとして利用することによって開発される。
この2つの手法はContext Fusion Blockに統合され、それに基づいてAttention Guided Global enhancement and Local refinement Network (AGLN) が精巧に設計されている。
論文 参考訳(メタデータ) (2022-04-09T02:32:24Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z) - Real-Time High-Performance Semantic Image Segmentation of Urban Street
Scenes [98.65457534223539]
都市景観のロバストなセマンティックセマンティックセグメンテーションのためのリアルタイムDCNNに基づく高速DCNN手法を提案する。
提案手法は, 51.0 fps と 39.3 fps の推論速度で, 平均 73.6% と平均 68.0% (mIoU) の精度を実現する。
論文 参考訳(メタデータ) (2020-03-11T08:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。