論文の概要: Shifting Spotlight for Co-supervision: A Simple yet Efficient Single-branch Network to See Through Camouflage
- arxiv url: http://arxiv.org/abs/2404.08936v1
- Date: Sat, 13 Apr 2024 09:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 18:03:29.212676
- Title: Shifting Spotlight for Co-supervision: A Simple yet Efficient Single-branch Network to See Through Camouflage
- Title(参考訳): 共同監督のためのスポットライトのシフト:カモフラージュを通して見るためのシンプルで効率的なシングルブランチネットワーク
- Authors: Yang Hu, Jinxia Zhang, Kaihua Zhang, Yin Yuan,
- Abstract要約: Co-Supervised Spotlight Shifting Network (CS$3$Net)は、コンパクトだが効率的なシングルブランチネットワークである。
私たちの研究は、シフトするスポットライトの下で動物のカモフラージュが容易に明らかにできるという効果を再現しています。
効率のよいCODモデルと比較して、MAC(Multiply-Accumulate)操作を32.13%削減する。
- 参考スコア(独自算出の注目度): 9.730652720675867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient and accurate camouflaged object detection (COD) poses a challenge in the field of computer vision. Recent approaches explored the utility of edge information for network co-supervision, achieving notable advancements. However, these approaches introduce an extra branch for complex edge extraction, complicate the model architecture and increases computational demands. Addressing this issue, our work replicates the effect that animal's camouflage can be easily revealed under a shifting spotlight, and leverages it for network co-supervision to form a compact yet efficient single-branch network, the Co-Supervised Spotlight Shifting Network (CS$^3$Net). The spotlight shifting strategy allows CS$^3$Net to learn additional prior within a single-branch framework, obviating the need for resource demanding multi-branch design. To leverage the prior of spotlight shifting co-supervision, we propose Shadow Refinement Module (SRM) and Projection Aware Attention (PAA) for feature refinement and enhancement. To ensure the continuity of multi-scale features aggregation, we utilize the Extended Neighbor Connection Decoder (ENCD) for generating the final predictions. Empirical evaluations on public datasets confirm that our CS$^3$Net offers an optimal balance between efficiency and performance: it accomplishes a 32.13% reduction in Multiply-Accumulate (MACs) operations compared to leading efficient COD models, while also delivering superior performance.
- Abstract(参考訳): 効率よく正確なカモフラージュされた物体検出(COD)は、コンピュータビジョンの分野において課題となる。
最近のアプローチでは、エッジ情報のネットワーク・コスーパービジョンへの活用を探求し、顕著な進歩を遂げた。
しかし、これらの手法は複雑なエッジ抽出のための余分な分岐を導入し、モデルアーキテクチャを複雑化し、計算要求を増加させる。
この問題に対処するために、我々の研究は、動物のカモフラージュがシフトするスポットライトの下で容易に明らかにできる効果を再現し、それをネットワークのコスーパービジョンとして活用して、コンパクトで効率的なシングルブランチネットワーク(CS$3$Net)を形成する。
スポットライトシフト戦略により、CS$^3$Netは、単一ブランチフレームワーク内で追加の事前学習が可能になり、リソース要求のマルチブランチ設計が不要になる。
スポットライトシフトコスーパービジョンの先行性を活用するため,機能改善と拡張のためのシャドーリファインメントモジュール(SRM)とプロジェクションアウェアアテンション(PAA)を提案する。
マルチスケール機能アグリゲーションの連続性を確保するために,ENCD(Extended Neighbor Connection Decoder)を用いて最終予測を生成する。
CS$^3$Netは効率と性能の最適なバランスを提供しており、効率の良いCODモデルと比較して、MAC(multiply-Accumulate)操作を32.13%削減し、優れたパフォーマンスを提供する。
関連論文リスト
- CSCO: Connectivity Search of Convolutional Operators [12.928148870505375]
本稿では,畳み込み演算子の効率的な接続を実現する新しいパラダイムであるCSCOを提案する。
CSCOは、ニューラルネットワークによる探索を、地道的なパフォーマンスの代理として導く。
ImageNetの結果、手作りとNAS造の高密度接続よりもパフォーマンスが0.6%向上した。
論文 参考訳(メタデータ) (2024-04-26T04:52:45Z) - A Point-Based Approach to Efficient LiDAR Multi-Task Perception [49.91741677556553]
PAttFormerは、ポイントクラウドにおける共同セマンティックセグメンテーションとオブジェクト検出のための効率的なマルチタスクアーキテクチャである。
他のLiDARベースのマルチタスクアーキテクチャとは異なり、提案したPAttFormerはタスク固有のポイントクラウド表現のために別の機能エンコーダを必要としない。
マルチタスク学習では,mIouでは+1.7%,mAPでは3Dオブジェクト検出では+1.7%,LiDARセマンティックセマンティックセグメンテーションは+1.7%向上した。
論文 参考訳(メタデータ) (2024-04-19T11:24:34Z) - COTR: Compact Occupancy TRansformer for Vision-based 3D Occupancy Prediction [60.87168562615171]
自動運転コミュニティは、3Dの占有率予測に大きな関心を示している。
我々は、幾何学的占有率エンコーダと意味論的グループデコーダを備えたコンパクト占有率TRansformer (COTR)を提案する。
COTRは、8%から15%の相対的な改善でベースラインを上回っている。
論文 参考訳(メタデータ) (2023-12-04T14:23:18Z) - EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object
Detection [56.03081616213012]
本稿では,新しいCasscade Bi-directional Fusion(CB-Fusion)モジュールを導入することで,マルチモーダル3Dオブジェクト検出のためのEPNet++を提案する。
提案したCB-Fusionモジュールは、カスケード双方向相互作用融合方式で画像特徴と点特徴の豊富な意味情報を高める。
KITTI、JRDB、SUN-RGBDデータセットの実験結果は、最先端の手法よりもEPNet++の方が優れていることを示している。
論文 参考訳(メタデータ) (2021-12-21T10:48:34Z) - CondenseNet V2: Sparse Feature Reactivation for Deep Networks [87.38447745642479]
高密度接続によるディープネットワークの機能再利用は、高い計算効率を達成する効果的な方法である。
スパース機能再活性化(SFR)と呼ばれる代替アプローチを提案し、再利用機能の有用性を積極的に高めることを目指しています。
提案手法は画像分類(ImageNet, CIFAR)とオブジェクト検出(MSCOCO)において,理論的効率と実用的速度の両面で有望な性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-04-09T14:12:43Z) - Efficient-CapsNet: Capsule Network with Self-Attention Routing [0.0]
深層畳み込みニューラルネットワークは、オブジェクト変換を埋め込むために、多数の機能マップを持つデータ拡張技術とレイヤを広範囲に活用する。
カプセルネットワークは、現在の畳み込みネットワークを拡張し、より効率的に全てのアフィン変換をエンコードするプロセスで人工的な視覚知覚を実現する、有望なソリューションである。
本稿では,カプセルネットワークの効率について検討し,その容量を160Kのパラメータをほとんど持たない極端なアーキテクチャで限界まで押し上げることにより,提案アーキテクチャがまだ最先端の結果が得られることを実証する。
論文 参考訳(メタデータ) (2021-01-29T09:56:44Z) - Faster Convergence in Deep-Predictive-Coding Networks to Learn Deeper
Representations [12.716429755564821]
DPCN(Deep-Predictive-Coding Network)は、フィードフォワードとフィードバック接続に依存する階層的な生成モデルである。
DPCNの重要な要素は、動的モデルのスパース状態を明らかにする前向きの推論手順である。
我々は,加速近位勾配に基づく実験的および理論的収束性の向上した最適化戦略を提案する。
論文 参考訳(メタデータ) (2021-01-18T02:30:13Z) - High-Capacity Expert Binary Networks [56.87581500474093]
ネットワークバイナライゼーションは、効率的なディープモデルを作成するための、ハードウェア対応の有望な方向性である。
メモリと計算上の優位性にもかかわらず、バイナリモデルとその実数値モデルの間の精度のギャップを縮めることは、未解決の課題である。
本稿では,入力特徴に基づく時間に1つのデータ固有のエキスパートバイナリフィルタを選択することを学習することで,初めてバイナリネットワークに条件付きコンピューティングを適合させる専門家バイナリ畳み込みを提案する。
論文 参考訳(メタデータ) (2020-10-07T17:58:10Z) - ReActNet: Towards Precise Binary Neural Network with Generalized
Activation Functions [76.05981545084738]
本稿では,新たな計算コストを伴わずに,実数値ネットワークからの精度ギャップを埋めるため,バイナリネットワークを強化するためのいくつかのアイデアを提案する。
まず,パラメータフリーのショートカットを用いて,コンパクトな実数値ネットワークを修正・バイナライズすることで,ベースラインネットワークを構築する。
提案したReActNetはすべての最先端技術よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2020-03-07T02:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。