論文の概要: CSDN: A Context-Gated Self-Adaptive Detection Network for Real-Time Object Detection
- arxiv url: http://arxiv.org/abs/2506.17679v1
- Date: Sat, 21 Jun 2025 11:12:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.536465
- Title: CSDN: A Context-Gated Self-Adaptive Detection Network for Real-Time Object Detection
- Title(参考訳): CSDN:リアルタイムオブジェクト検出のためのコンテキスト拡張型自己適応検出ネットワーク
- Authors: Wei Haolin,
- Abstract要約: 本稿では,自然言語処理アーキテクチャと人間の視覚知覚に触発されたトランスフォーマーベースの検出ヘッダであるContext-Gated Scale-Adaptive Detection Network (CSDN)を紹介する。
CSDNは、従来の自己アテンション層とクロスアテンション層を新しいゲーティングメカニズムで置き換える。
提案する検出ヘッドは, 各種CNN検出器のネイティブヘッドを直接置き換えることができ, 事前学習重量の微調整を数ラウンド行うだけで検出精度が大幅に向上する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (CNNs) have long been the cornerstone of target detection, but they are often limited by limited receptive fields, which hinders their ability to capture global contextual information. This paper believes that the effective utilization of extracted features is as important as the feature extraction process itself. We critically re-evaluated the DETR-inspired header network architecture, questioning the indispensable nature of its self-attention mechanism, and discovering significant information redundancies. To solve these problems, we introduced the Context-Gated Scale-Adaptive Detection Network (CSDN), a Transformer-based detection header inspired by natural language processing architecture and human visual perception. CSDN aims to efficiently utilize the characteristics of the CNN backbone network by replacing the traditional stacked self-attention and cross-attention layers with a novel gating mechanism. This mechanism enables each region of interest (ROI) to adaptively select and combine feature dimensions and scale information from multiple attention patterns. CSDN provides more powerful global context modeling capabilities and can better adapt to objects of different sizes and structures. Our proposed detection head can directly replace the native heads of various CNN-based detectors, and only a few rounds of fine-tuning on the pre-training weights can significantly improve the detection accuracy, thus avoiding the need to achieve small improvements. Various layer modules undergo extensive re-training.
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、長い間、ターゲット検出の基盤となっているが、世界的文脈情報をキャプチャする能力を阻害する、限定的な受容野によって制限されることが多い。
本稿では,抽出した特徴を効果的に活用することが,特徴抽出プロセス自体と同じくらい重要であると信じている。
我々は、DETRにインスパイアされたヘッダーネットワークアーキテクチャを批判的に再評価し、自己認識機構の欠如を疑問視し、重要な情報冗長性を発見した。
これらの問題を解決するために、自然言語処理アーキテクチャと人間の視覚知覚に触発されたトランスフォーマーベースの検出ヘッダであるContext-Gated Scale-Adaptive Detection Network (CSDN)を導入した。
CSDNは、従来の自己アテンション層とクロスアテンション層を新しいゲーティング機構で置き換えることで、CNNバックボーンネットワークの特性を効率的に活用することを目的としている。
このメカニズムにより、各関心領域(ROI)が特徴次元を適応的に選択、結合し、複数の注意パターンから情報をスケールすることができる。
CSDNは、より強力なグローバルコンテキストモデリング機能を提供し、異なるサイズと構造を持つオブジェクトに適応できる。
提案する検出ヘッドは, 各種CNN検出器のネイティブヘッドを直接置き換えることができ, 事前学習重量の微調整を数ラウンド行うだけで検出精度が大幅に向上し, 小型化の必要がなくなる。
様々なレイヤーモジュールが大規模な再訓練を受けている。
関連論文リスト
- NIDS Neural Networks Using Sliding Time Window Data Processing with Trainable Activations and its Generalization Capability [0.0]
本稿では,ネットワーク侵入検知システム(NIDS)のためのニューラルネットワークについて述べる。
ディープパケットインスペクションに頼らず、ほとんどのNIDSデータセットで見つからず、従来のフローコレクタから簡単に取得できる11の機能しか必要としない。
報告されたトレーニング精度は、提案手法の99%を超え、ニューラルネットワークの入力特性は20に満たない。
論文 参考訳(メタデータ) (2024-10-24T11:36:19Z) - Change Guiding Network: Incorporating Change Prior to Guide Change Detection in Remote Sensing Imagery [6.5026098921977145]
本研究では,変化特徴の表現問題に対処するためにCGNet(Change Guiding Network)を設計する。
CGNetは、マルチスケール機能融合を導くために、リッチなセマンティック情報を持つ変更マップを生成する。
Change Guide Module (CGM) と呼ばれる自己保持モジュールは、画素間の長距離依存を効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-04-14T08:09:33Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Point-aware Interaction and CNN-induced Refinement Network for RGB-D Salient Object Detection [95.84616822805664]
我々は,CNNによるトランスフォーマーアーキテクチャを導入し,ポイント・アウェア・インタラクションとCNNによるリファインメントを備えた新しいRGB-D SODネットワークを提案する。
トランスフォーマーがもたらすブロック効果とディテール破壊問題を自然に軽減するために,コンテンツリファインメントとサプリメントのためのCNNRユニットを設計する。
論文 参考訳(メタデータ) (2023-08-17T11:57:49Z) - SAR Despeckling Using Overcomplete Convolutional Networks [53.99620005035804]
スペックルはSAR画像を劣化させるため、リモートセンシングにおいて重要な問題である。
近年の研究では、畳み込みニューラルネットワーク(CNN)が古典的解法よりも優れていることが示されている。
本研究は、受容場を制限することで低レベルの特徴を学習することに集中するために、過剰なCNNアーキテクチャを用いる。
本稿では,合成および実SAR画像の非特定化手法と比較して,提案手法により非特定化性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-31T15:55:37Z) - Joint Learning of Neural Transfer and Architecture Adaptation for Image
Recognition [77.95361323613147]
現在の最先端の視覚認識システムは、大規模データセット上でニューラルネットワークを事前トレーニングし、より小さなデータセットでネットワーク重みを微調整することに依存している。
本稿では,各ドメインタスクに適応したネットワークアーキテクチャの動的適応と,効率と効率の両面で重みの微調整の利点を実証する。
本手法は,ソースドメインタスクでスーパーネットトレーニングを自己教師付き学習に置き換え,下流タスクで線形評価を行うことにより,教師なしパラダイムに容易に一般化することができる。
論文 参考訳(メタデータ) (2021-03-31T08:15:17Z) - Modeling from Features: a Mean-field Framework for Over-parameterized
Deep Neural Networks [54.27962244835622]
本稿では、オーバーパラメータ化ディープニューラルネットワーク(DNN)のための新しい平均場フレームワークを提案する。
このフレームワークでは、DNNは連続的な極限におけるその特徴に対する確率測度と関数によって表現される。
本稿では、標準DNNとResidual Network(Res-Net)アーキテクチャを通してフレームワークを説明する。
論文 参考訳(メタデータ) (2020-07-03T01:37:16Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。