論文の概要: Rapid Salient Object Detection with Difference Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2507.01182v1
- Date: Tue, 01 Jul 2025 20:41:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.931989
- Title: Rapid Salient Object Detection with Difference Convolutional Neural Networks
- Title(参考訳): 差分畳み込みニューラルネットワークを用いた高速能動物体検出
- Authors: Zhuo Su, Li Liu, Matthias Müller, Jiehua Zhang, Diana Wofk, Ming-Ming Cheng, Matti Pietikäinen,
- Abstract要約: 本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。
SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
- 参考スコア(独自算出の注目度): 49.838283141381716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the challenge of deploying salient object detection (SOD) on resource-constrained devices with real-time performance. While recent advances in deep neural networks have improved SOD, existing top-leading models are computationally expensive. We propose an efficient network design that combines traditional wisdom on SOD and the representation power of modern CNNs. Like biologically-inspired classical SOD methods relying on computing contrast cues to determine saliency of image regions, our model leverages Pixel Difference Convolutions (PDCs) to encode the feature contrasts. Differently, PDCs are incorporated in a CNN architecture so that the valuable contrast cues are extracted from rich feature maps. For efficiency, we introduce a difference convolution reparameterization (DCR) strategy that embeds PDCs into standard convolutions, eliminating computation and parameters at inference. Additionally, we introduce SpatioTemporal Difference Convolution (STDC) for video SOD, enhancing the standard 3D convolution with spatiotemporal contrast capture. Our models, SDNet for image SOD and STDNet for video SOD, achieve significant improvements in efficiency-accuracy trade-offs. On a Jetson Orin device, our models with $<$ 1M parameters operate at 46 FPS and 150 FPS on streamed images and videos, surpassing the second-best lightweight models in our experiments by more than $2\times$ and $3\times$ in speed with superior accuracy. Code will be available at https://github.com/hellozhuo/stdnet.git.
- Abstract(参考訳): 本稿では,資源制約のあるデバイスにSODをリアルタイムに展開する上での課題について述べる。
ディープニューラルネットワークの最近の進歩はSODを改善しているが、既存のトップリードモデルは計算コストが高い。
SODにおける従来の知恵と現代のCNNの表現力を組み合わせたネットワーク設計を提案する。
生物学的にインスパイアされた古典的SOD法と同様に、画像領域の正当性を決定するためにコントラストを計算し、我々のモデルはピクセル差分畳み込み(PDC)を利用して特徴コントラストを符号化する。
異なることに、PDCをCNNアーキテクチャに組み込んで、豊富な特徴写像から貴重なコントラストキューを抽出する。
効率向上のために,PDCを標準畳み込みに埋め込んだ差分畳み込み再パラメータ化(DCR)戦略を導入する。
さらに、ビデオSODのための時空間差畳み込み(STDC)を導入し、時空間コントラストキャプチャによる標準3D畳み込みを強化した。
画像SODのSDNetとビデオSODのSTDNetは効率と精度のトレードオフを大幅に改善する。
Jetson Orinのデバイスでは、1Mのパラメータを持つモデルが46FPSと150FPSのストリーム画像とビデオで動作し、実験で2番目に高い軽量モデルよりも2\times$と3\times$以上のスピードで精度良く動作します。
コードはhttps://github.com/hellozhuo/stdnet.git.comで入手できる。
関連論文リスト
- An Efficient 3D Convolutional Neural Network with Channel-wise, Spatial-grouped, and Temporal Convolutions [3.798710743290466]
本稿では,ビデオ行動認識のためのシンプルで効率的な3次元畳み込みニューラルネットワークを提案する。
提案するネットワークの性能と効率を,複数のビデオ行動認識データセット上で評価する。
論文 参考訳(メタデータ) (2025-03-02T08:47:06Z) - ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers [0.24578723416255746]
本稿では、DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法を応用し、近似乗算器を活用可能なニューラルアーキテクチャ探索(NAS)手法であるApproxDARTSを提案する。
ApproxDARTSは10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成する。
論文 参考訳(メタデータ) (2024-04-08T09:54:57Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - FADNet: A Fast and Accurate Network for Disparity Estimation [18.05392578461659]
本研究では,FADNetという分散度推定のための効率的かつ高精度なディープネットワークを提案する。
高速な計算を保存するために、2Dベースの効率的な相関層と積み重ねブロックを利用する。
精度を向上させるために、マルチスケールの重みスケジューリングトレーニング技術を活用するために、マルチスケールの予測を含んでいる。
論文 参考訳(メタデータ) (2020-03-24T10:27:11Z) - STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition [39.58542259261567]
本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
論文 参考訳(メタデータ) (2020-03-18T04:46:30Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。