論文の概要: Shifting Spotlight for Co-supervision: A Simple yet Efficient Single-branch Network to See Through Camouflage
- arxiv url: http://arxiv.org/abs/2404.08936v1
- Date: Sat, 13 Apr 2024 09:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:03:29.212676
- Title: Shifting Spotlight for Co-supervision: A Simple yet Efficient Single-branch Network to See Through Camouflage
- Title(参考訳): 共同監督のためのスポットライトのシフト:カモフラージュを通して見るためのシンプルで効率的なシングルブランチネットワーク
- Authors: Yang Hu, Jinxia Zhang, Kaihua Zhang, Yin Yuan,
- Abstract要約: Co-Supervised Spotlight Shifting Network (CS$3$Net)は、コンパクトだが効率的なシングルブランチネットワークである。
私たちの研究は、シフトするスポットライトの下で動物のカモフラージュが容易に明らかにできるという効果を再現しています。
効率のよいCODモデルと比較して、MAC(Multiply-Accumulate)操作を32.13%削減する。
- 参考スコア(独自算出の注目度): 9.730652720675867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient and accurate camouflaged object detection (COD) poses a challenge in the field of computer vision. Recent approaches explored the utility of edge information for network co-supervision, achieving notable advancements. However, these approaches introduce an extra branch for complex edge extraction, complicate the model architecture and increases computational demands. Addressing this issue, our work replicates the effect that animal's camouflage can be easily revealed under a shifting spotlight, and leverages it for network co-supervision to form a compact yet efficient single-branch network, the Co-Supervised Spotlight Shifting Network (CS$^3$Net). The spotlight shifting strategy allows CS$^3$Net to learn additional prior within a single-branch framework, obviating the need for resource demanding multi-branch design. To leverage the prior of spotlight shifting co-supervision, we propose Shadow Refinement Module (SRM) and Projection Aware Attention (PAA) for feature refinement and enhancement. To ensure the continuity of multi-scale features aggregation, we utilize the Extended Neighbor Connection Decoder (ENCD) for generating the final predictions. Empirical evaluations on public datasets confirm that our CS$^3$Net offers an optimal balance between efficiency and performance: it accomplishes a 32.13% reduction in Multiply-Accumulate (MACs) operations compared to leading efficient COD models, while also delivering superior performance.
- Abstract(参考訳): 効率よく正確なカモフラージュされた物体検出(COD)は、コンピュータビジョンの分野において課題となる。
最近のアプローチでは、エッジ情報のネットワーク・コスーパービジョンへの活用を探求し、顕著な進歩を遂げた。
しかし、これらの手法は複雑なエッジ抽出のための余分な分岐を導入し、モデルアーキテクチャを複雑化し、計算要求を増加させる。
この問題に対処するために、我々の研究は、動物のカモフラージュがシフトするスポットライトの下で容易に明らかにできる効果を再現し、それをネットワークのコスーパービジョンとして活用して、コンパクトで効率的なシングルブランチネットワーク(CS$3$Net)を形成する。
スポットライトシフト戦略により、CS$^3$Netは、単一ブランチフレームワーク内で追加の事前学習が可能になり、リソース要求のマルチブランチ設計が不要になる。
スポットライトシフトコスーパービジョンの先行性を活用するため,機能改善と拡張のためのシャドーリファインメントモジュール(SRM)とプロジェクションアウェアアテンション(PAA)を提案する。
マルチスケール機能アグリゲーションの連続性を確保するために,ENCD(Extended Neighbor Connection Decoder)を用いて最終予測を生成する。
CS$^3$Netは効率と性能の最適なバランスを提供しており、効率の良いCODモデルと比較して、MAC(multiply-Accumulate)操作を32.13%削減し、優れたパフォーマンスを提供する。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - Near-Optimal Online Learning for Multi-Agent Submodular Coordination: Tight Approximation and Communication Efficiency [52.60557300927007]
離散部分モジュラー問題を連続的に最適化するために,$textbfMA-OSMA$アルゴリズムを提案する。
また、一様分布を混合することによりKLの発散を効果的に活用する、プロジェクションフリーな$textbfMA-OSEA$アルゴリズムも導入する。
我々のアルゴリズムは最先端OSGアルゴリズムによって提供される$(frac11+c)$-approximationを大幅に改善する。
論文 参考訳(メタデータ) (2025-02-07T15:57:56Z) - SwinShadow: Shifted Window for Ambiguous Adjacent Shadow Detection [90.4751446041017]
スウィンシャドウ(SwinShadow)は、隣接する影を検出するための強力なシフトウインドウ機構をフル活用したトランスフォーマーベースのアーキテクチャである。
プロセス全体は、エンコーダ、デコーダ、機能統合の3つの部分に分けられる。
SBU, UCF, ISTDの3つのシャドウ検出ベンチマークデータセットの実験により, ネットワークがバランスエラー率(BER)の点で優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-08-07T03:16:33Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-12-04T14:23:18Z) - UT-Net: Combining U-Net and Transformer for Joint Optic Disc and Cup
Segmentation and Glaucoma Detection [0.0]
緑内障は慢性の視覚疾患であり、永久的な不可逆性視覚障害を引き起こす可能性がある。
緑内障の早期発見には,カップ・ツー・ディスク比(CDR)の測定が重要な役割を担っている。
我々はUT-Netと呼ばれる新しいセグメンテーションパイプラインを提案し、U-Netとトランスフォーマーの双方の利点をエンコーディング層で利用し、次にアテンションゲートバイ線形融合方式を提案する。
論文 参考訳(メタデータ) (2023-03-08T23:21:19Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - OAS-Net: Occlusion Aware Sampling Network for Accurate Optical Flow [4.42249337449125]
既存のディープネットワークは、ピラミッドの粗大なパラダイムを主に利用することで満足な結果を得た。
我々は,OAS-Netという軽量で効率的な光フローネットワークを提案し,正確な光フローを実現する。
SintelとKITTIデータセットの実験は、提案手法の有効性を実証している。
論文 参考訳(メタデータ) (2021-01-31T03:30:31Z) - Selective Convolutional Network: An Efficient Object Detector with
Ignoring Background [28.591619763438054]
Selective Convolutional Network (SCN) と呼ばれる効率的なオブジェクト検出器を導入し、意味のある情報を含む場所のみを選択的に計算する。
そこで本稿では,ネットワークの次を導くためのオーバーヘッドを無視できるような,精巧な構造を設計する。
論文 参考訳(メタデータ) (2020-02-04T10:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。