論文の概要: SO-DETR: Leveraging Dual-Domain Features and Knowledge Distillation for Small Object Detection
- arxiv url: http://arxiv.org/abs/2504.11470v1
- Date: Fri, 11 Apr 2025 13:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-17 18:06:39.538709
- Title: SO-DETR: Leveraging Dual-Domain Features and Knowledge Distillation for Small Object Detection
- Title(参考訳): SO-DETR:小型物体検出のためのデュアルドメイン特徴の活用と知識蒸留
- Authors: Huaxiang Zhang, Hao Zhang, Aoran Mei, Zhongxue Gan, Guo-Niu Zhu,
- Abstract要約: 本稿では,SO-DETR(Small Object Detection Transformer)モデルを提案する。
このモデルは3つの重要なコンポーネントから構成される:二重ドメインハイブリッドエンコーダ、拡張クエリ選択機構、知識蒸留戦略である。
VisDrone 2019-DETとUAVVasteデータセットの実験結果は、SO-DETRが同様の計算要求で既存の手法より優れていることを示している。
- 参考スコア(独自算出の注目度): 15.03203094818889
- License:
- Abstract: Detection Transformer-based methods have achieved significant advancements in general object detection. However, challenges remain in effectively detecting small objects. One key difficulty is that existing encoders struggle to efficiently fuse low-level features. Additionally, the query selection strategies are not effectively tailored for small objects. To address these challenges, this paper proposes an efficient model, Small Object Detection Transformer (SO-DETR). The model comprises three key components: a dual-domain hybrid encoder, an enhanced query selection mechanism, and a knowledge distillation strategy. The dual-domain hybrid encoder integrates spatial and frequency domains to fuse multi-scale features effectively. This approach enhances the representation of high-resolution features while maintaining relatively low computational overhead. The enhanced query selection mechanism optimizes query initialization by dynamically selecting high-scoring anchor boxes using expanded IoU, thereby improving the allocation of query resources. Furthermore, by incorporating a lightweight backbone network and implementing a knowledge distillation strategy, we develop an efficient detector for small objects. Experimental results on the VisDrone-2019-DET and UAVVaste datasets demonstrate that SO-DETR outperforms existing methods with similar computational demands. The project page is available at https://github.com/ValiantDiligent/SO_DETR.
- Abstract(参考訳): トランスフォーマーに基づく検出法は、一般的な物体検出において大きな進歩を遂げている。
しかし、小さな物体を効果的に検出する上での課題は残る。
重要な難点は、既存のエンコーダが低レベルの機能を効率的に融合するのに苦労していることだ。
さらに、クエリ選択戦略は、小さなオブジェクトに対して効果的に調整されていない。
そこで本研究では,SO-DETR(Small Object Detection Transformer)モデルを提案する。
このモデルは3つの重要なコンポーネントから構成される:二重ドメインハイブリッドエンコーダ、拡張クエリ選択機構、知識蒸留戦略である。
デュアルドメインハイブリッドエンコーダは、空間領域と周波数領域を統合し、マルチスケール機能を効果的に融合する。
このアプローチは、比較的低い計算オーバーヘッドを維持しながら、高解像度な特徴の表現を強化する。
拡張されたクエリ選択機構は、拡張されたIoUを使用してハイスコアのアンカーボックスを動的に選択することでクエリ初期化を最適化し、クエリリソースの割り当てを改善する。
さらに,軽量なバックボーンネットワークを導入し,知識蒸留戦略を実装することにより,小型物体の効率的な検出法を開発した。
VisDrone-2019-DETとUAVVasteデータセットの実験結果は、SO-DETRが同様の計算要求で既存の手法より優れていることを示している。
プロジェクトページはhttps://github.com/ValiantDiligent/SO_DETRで公開されている。
関連論文リスト
- Efficient Feature Fusion for UAV Object Detection [9.632727117779178]
特に小さな物体は画像のごく一部を占めており、正確な検出を困難にしている。
既存のマルチスケール機能融合手法は、様々な解像度で機能を集約することでこれらの課題に対処する。
本稿では,UAVオブジェクト検出タスクに特化して設計された新しい機能融合フレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-29T20:39:16Z) - Efficient Oriented Object Detection with Enhanced Small Object Recognition in Aerial Images [2.9138705529771123]
本稿では,オブジェクト指向物体検出タスクに適したYOLOv8モデルを新たに拡張する。
本モデルでは,ASFP(Adaptive Scale Feature Pyramid)モジュールと,P2層の詳細を利用したウェーブレット変換に基づくC2fモジュールを特徴とする。
我々のアプローチは233万のパラメータを持つDecoupleNetよりも効率的なアーキテクチャ設計を提供し、検出精度を維持しています。
論文 参考訳(メタデータ) (2024-12-17T05:45:48Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Towards Efficient Use of Multi-Scale Features in Transformer-Based
Object Detectors [49.83396285177385]
マルチスケール機能は、オブジェクト検出に非常に効果的であることが証明されているが、多くの場合、巨大な計算コストが伴う。
本稿では,Transformerベースのオブジェクト検出器において,マルチスケール機能を効率的に利用するための汎用パラダイムとして,Iterative Multi-scale Feature Aggregation (IMFA)を提案する。
論文 参考訳(メタデータ) (2022-08-24T08:09:25Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - Oriented Object Detection with Transformer [51.634913687632604]
我々は,エンドツーエンドネットワークに基づくTRansformer(bf O2DETR$)によるオブジェクト指向オブジェクト検出を実装した。
注意機構を奥行き分離可能な畳み込みに置き換えることで,トランスフォーマーの簡易かつ高効率なエンコーダを設計する。
私たちの$rm O2DETR$は、オブジェクト指向オブジェクト検出の分野における別の新しいベンチマークになり、より高速なR-CNNとRetinaNetに対して最大3.85mAPの改善が達成されます。
論文 参考訳(メタデータ) (2021-06-06T14:57:17Z) - CFC-Net: A Critical Feature Capturing Network for Arbitrary-Oriented
Object Detection in Remote Sensing Images [0.9462808515258465]
本稿では,物体検出における識別的特徴の役割について論じる。
次に,検出精度を向上させるために,cfc-net (critical feature capture network) を提案する。
本手法は多くの最先端手法と比較して優れた検出性能が得られることを示す。
論文 参考訳(メタデータ) (2021-01-18T02:31:09Z) - Learning to Generate Content-Aware Dynamic Detectors [62.74209921174237]
サンプル適応型モデルアーキテクチャを自動的に生成する効率的な検出器の設計を新たに導入する。
動的ルーティングの学習を導くために、オブジェクト検出に適したコースツーファインの成層図を紹介します。
MS-COCOデータセットの実験により、CADDetはバニラルーティングに比べて10%少ないFLOPで1.8以上のmAPを達成することが示された。
論文 参考訳(メタデータ) (2020-12-08T08:05:20Z) - AFD-Net: Adaptive Fully-Dual Network for Few-Shot Object Detection [8.39479809973967]
Few-shot Object Detection (FSOD) は、未確認の物体に迅速に適応できる検出器の学習を目的としている。
既存の方法では、共有コンポーネントを用いて分類と局所化のサブタスクを実行することで、この問題を解決している。
本稿では,2つのサブタスクの明示的な分解を考慮し,両者の情報を活用して特徴表現の強化を図ることを提案する。
論文 参考訳(メタデータ) (2020-11-30T10:21:32Z) - Representation Sharing for Fast Object Detector Search and Beyond [38.18583590914755]
本研究では,1段検出器のサブネットワークにおける受容場と畳み込み型の最適構成について,Fast And Diverse (FAD) を提案する。
FADは、様々なバックボーンを持つ2種類の1段検出器において顕著な改善を実現している。
論文 参考訳(メタデータ) (2020-07-23T15:39:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。