論文の概要: GAPNet: A Lightweight Framework for Image and Video Salient Object Detection via Granularity-Aware Paradigm
- arxiv url: http://arxiv.org/abs/2508.07585v1
- Date: Mon, 11 Aug 2025 03:30:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.926959
- Title: GAPNet: A Lightweight Framework for Image and Video Salient Object Detection via Granularity-Aware Paradigm
- Title(参考訳): GAPNet: 粒度を意識したパラダイムによる画像とビデオの有向物体検出のための軽量フレームワーク
- Authors: Yu-Huan Wu, Wei Liu, Zi-Xuan Zhu, Zizhou Wang, Yong Liu, Liangli Zhen,
- Abstract要約: GAPNetは、画像とビデオの両方のオブジェクト検出のための粒度認識パラダイムに基づいて構築された軽量ネットワークである。
我々のデコーダは、低粒度の高レベル特徴と高粒度の低レベル特徴を融合した粒度対応接続で構築されている。
エンコーダ上には,グローバル情報学習のための自己認識モジュールが構築されており,計算コストを無視できる精度の高いオブジェクトローカライゼーションを実現している。
- 参考スコア(独自算出の注目度): 19.018378225862474
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent salient object detection (SOD) models predominantly rely on heavyweight backbones, incurring substantial computational cost and hindering their practical application in various real-world settings, particularly on edge devices. This paper presents GAPNet, a lightweight network built on the granularity-aware paradigm for both image and video SOD. We assign saliency maps of different granularities to supervise the multi-scale decoder side-outputs: coarse object locations for high-level outputs and fine-grained object boundaries for low-level outputs. Specifically, our decoder is built with granularity-aware connections which fuse high-level features of low granularity and low-level features of high granularity, respectively. To support these connections, we design granular pyramid convolution (GPC) and cross-scale attention (CSA) modules for efficient fusion of low-scale and high-scale features, respectively. On top of the encoder, a self-attention module is built to learn global information, enabling accurate object localization with negligible computational cost. Unlike traditional U-Net-based approaches, our proposed method optimizes feature utilization and semantic interpretation while applying appropriate supervision at each processing stage. Extensive experiments show that the proposed method achieves a new state-of-the-art performance among lightweight image and video SOD models. Code is available at https://github.com/yuhuan-wu/GAPNet.
- Abstract(参考訳): 最近のサルエント物体検出(SOD)モデルは、主に重厚なバックボーンに依存しており、かなりの計算コストを発生させ、特にエッジデバイスにおける様々な現実の環境での実用性を妨げている。
本稿では、画像とビデオのSODのための粒度認識パラダイムに基づく軽量ネットワークであるGAPNetを提案する。
我々は,高レベルの出力に対する粗いオブジェクト位置と低レベルの出力に対する細粒度オブジェクト境界のマルチスケールデコーダサイドアウトプットを監督するために,異なる粒度のサリエンシマップを割り当てる。
具体的には,低粒度の高レベル特徴と高粒度の低レベル特徴を融合した粒度対応接続を用いてデコーダを構築した。
これらの接続を支援するため,我々は,低スケール特徴と高スケール特徴を効率的に融合するための粒状ピラミッド畳み込み (GPC) とクロススケールアテンション (CSA) モジュールを設計した。
エンコーダ上には,グローバルな情報学習のための自己認識モジュールが構築されており,計算コストを無視できる精度の高いオブジェクトローカライゼーションを実現している。
従来のU-Netベースのアプローチとは異なり,提案手法は各処理段階で適切な監視を施しながら,特徴利用と意味解釈を最適化する。
広汎な実験により,提案手法は軽量画像とビデオSODモデルの間で,新たな最先端性能を実現することが示された。
コードはhttps://github.com/yuhuan-wu/GAPNetで入手できる。
関連論文リスト
- MGDFIS: Multi-scale Global-detail Feature Integration Strategy for Small Object Detection [10.135137525886098]
UAV画像の小さな物体検出は、探索・救助、交通監視、環境監視といった用途に不可欠である。
既存のマルチスケール融合法は、計算負荷を増し、詳細をぼかすのに役立つ。
本稿では,グローバルコンテキストと局所的な詳細を密結合して検出性能を向上させる統合融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-15T02:54:25Z) - Optimized Unet with Attention Mechanism for Multi-Scale Semantic Segmentation [8.443350618722564]
本稿では,注目機構と組み合わさった改良されたUnetモデルを提案する。
チャネルアテンションと空間アテンションモジュールを導入し、重要な特徴にフォーカスするモデルの能力を強化する。
改良されたモデルは、mIoUとピクセル精度(PA)でよく機能し、それぞれ76.5%と95.3%に達した。
論文 参考訳(メタデータ) (2025-02-06T06:51:23Z) - MG-LLaVA: Towards Multi-Granularity Visual Instruction Tuning [44.497776004372724]
MLLM(Multi-modal large language model)は、様々な視覚的理解タスクにおいて大きな進歩を遂げている。
MG-LLaVAは,多粒度視覚フローを組み込むことで,モデルの視覚処理能力を向上する革新的MLLMである。
さらに, 物体認識能力を向上するため, オフライン検出器によって識別された境界ボックスから得られる物体レベルの特徴を取り入れた。
論文 参考訳(メタデータ) (2024-06-25T17:55:11Z) - Multi-view Aggregation Network for Dichotomous Image Segmentation [76.75904424539543]
Dichotomous Image (DIS) は近年,高解像度自然画像からの高精度物体分割に向けて出現している。
既存の手法は、グローバルなローカライゼーションと局所的な洗練を徐々に完了させるために、退屈な複数のエンコーダ・デコーダストリームとステージに依存している。
これに触発されて、我々は多視点オブジェクト認識問題としてdisをモデル化し、擬似多視点アグリゲーションネットワーク(MVANet)を提供する。
一般的なdis-5Kデータセットの実験では、我々のMVANetは精度と速度の両方で最先端の手法を大きく上回っている。
論文 参考訳(メタデータ) (2024-04-11T03:00:00Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - LENet: Lightweight And Efficient LiDAR Semantic Segmentation Using
Multi-Scale Convolution Attention [0.0]
本稿では,LDARに基づくセマンティックセマンティックセマンティクスのためのエンコーダデコーダ構造を持つLENetと呼ばれるプロジェクションベースのセマンティクスセマンティクスセマンティクスネットワークを提案する。
エンコーダは、特徴を捉えるために、様々な受信フィールドサイズを持つ新しいマルチスケール・コンボリューション・アテンション(MSCA)モジュールで構成されている。
提案手法は, 最先端のセマンティックセグメンテーション法と比較して, 軽量で, 効率的で, 堅牢であることを示す。
論文 参考訳(メタデータ) (2023-01-11T02:51:38Z) - Lightweight Salient Object Detection in Optical Remote-Sensing Images
via Semantic Matching and Edge Alignment [61.45639694373033]
セマンティックマッチングとエッジアライメントに基づく光リモートセンシング画像(ORSI-SOD)のための新しい軽量ネットワークSeaNetを提案する。
具体的には、機能抽出のための軽量MobileNet-V2、高レベルの機能のための動的セマンティックマッチングモジュール(DSMM)、推論のためのポータブルデコーダが含まれる。
論文 参考訳(メタデータ) (2023-01-07T04:33:51Z) - EDN: Salient Object Detection via Extremely-Downsampled Network [66.38046176176017]
画像全体のグローバルビューを効果的に学ぶために、極端なダウンサンプリング技術を使用するExtremely-Downsampled Network(EDN)を紹介します。
実験は、ednがリアルタイム速度でsart性能を達成することを実証する。
論文 参考訳(メタデータ) (2020-12-24T04:23:48Z) - A Holistically-Guided Decoder for Deep Representation Learning with
Applications to Semantic Segmentation and Object Detection [74.88284082187462]
一般的な戦略の1つは、バックボーンネットワークに拡張畳み込みを採用し、高解像度のフィーチャーマップを抽出することです。
本稿では,高分解能なセマンティクスリッチな特徴マップを得るために紹介される,新たなホリスティック誘導デコーダを提案する。
論文 参考訳(メタデータ) (2020-12-18T10:51:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。