論文の概要: Small Object Detection by DETR via Information Augmentation and Adaptive
Feature Fusion
- arxiv url: http://arxiv.org/abs/2401.08017v1
- Date: Tue, 16 Jan 2024 00:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:51:45.181952
- Title: Small Object Detection by DETR via Information Augmentation and Adaptive
Feature Fusion
- Title(参考訳): 情報拡張と適応的特徴融合によるDETRによる小物体検出
- Authors: Ji Huang, Hui Wang
- Abstract要約: RT-DETRモデルは、リアルタイムオブジェクト検出では良好に動作するが、小さなオブジェクト検出精度では不十分である。
異なるレベルから各特徴マップに学習可能なパラメータを割り当てる適応的特徴融合アルゴリズムを提案する。
これにより、異なるスケールでオブジェクトの特徴をキャプチャするモデルの能力が向上し、小さなオブジェクトを検出する精度が向上する。
- 参考スコア(独自算出の注目度): 4.9860018132769985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main challenge for small object detection algorithms is to ensure
accuracy while pursuing real-time performance. The RT-DETR model performs well
in real-time object detection, but performs poorly in small object detection
accuracy. In order to compensate for the shortcomings of the RT-DETR model in
small object detection, two key improvements are proposed in this study.
Firstly, The RT-DETR utilises a Transformer that receives input solely from the
final layer of Backbone features. This means that the Transformer's input only
receives semantic information from the highest level of abstraction in the Deep
Network, and ignores detailed information such as edges, texture or color
gradients that are critical to the location of small objects at lower levels of
abstraction. Including only deep features can introduce additional background
noise. This can have a negative impact on the accuracy of small object
detection. To address this issue, we propose the fine-grained path augmentation
method. This method helps to locate small objects more accurately by providing
detailed information to the deep network. So, the input to the transformer
contains both semantic and detailed information. Secondly, In RT-DETR, the
decoder takes feature maps of different levels as input after concatenating
them with equal weight. However, this operation is not effective in dealing
with the complex relationship of multi-scale information captured by feature
maps of different sizes. Therefore, we propose an adaptive feature fusion
algorithm that assigns learnable parameters to each feature map from different
levels. This allows the model to adaptively fuse feature maps from different
levels and effectively integrate feature information from different scales.
This enhances the model's ability to capture object features at different
scales, thereby improving the accuracy of detecting small objects.
- Abstract(参考訳): 小型オブジェクト検出アルゴリズムの主な課題は、リアルタイム性能を追求しながら精度を確保することである。
RT-DETRモデルはリアルタイムオブジェクト検出では良好に動作するが、小さなオブジェクト検出精度では不十分である。
小物体検出におけるRT-DETRモデルの欠点を補うために,本研究では2つの重要な改良点を提案する。
まず、RT-DETRは、Backboneの機能の最終層からのみ入力を受け取るTransformerを利用する。
これは、トランスフォーマの入力が、ディープネットワークの最も抽象度の高いレベルからのみ意味情報を受け取り、抽象度の低い小さなオブジェクトの位置に不可欠なエッジ、テクスチャ、色勾配などの詳細な情報を無視していることを意味する。
深い機能のみを含むと、追加のバックグラウンドノイズが発生する。
これは小さな物体検出の精度に悪影響を及ぼす可能性がある。
この問題に対処するため,細粒度パス拡張法を提案する。
この方法は、ディープネットワークに詳細な情報を提供することで、より正確に小さなオブジェクトを見つけるのに役立つ。
したがって、変換器への入力は意味情報と詳細情報の両方を含む。
第2に、RT-DETRでは、デコーダは異なるレベルの特徴写像を等重量で連結した後、入力として取り込む。
しかし、この操作は、異なるサイズの特徴マップによってキャプチャされた多スケール情報の複雑な関係を扱うには有効ではない。
そこで本研究では,各特徴マップに学習可能なパラメータを割り当てる適応型特徴融合アルゴリズムを提案する。
これにより、異なるレベルのフィーチャーマップを適応的に融合し、異なるスケールの機能情報を効果的に統合することができる。
これにより、異なるスケールでオブジェクトの特徴をキャプチャするモデルの能力が向上し、小さなオブジェクトの検出精度が向上する。
関連論文リスト
- Visible and Clear: Finding Tiny Objects in Difference Map [50.54061010335082]
本稿では,検出モデルに自己再構成機構を導入し,それと微小物体との強い相関関係を明らかにする。
具体的には、再構成画像と入力の差分マップを構築して、検出器の首の内側に再構成ヘッドを配置し、小さな物体に対して高い感度を示す。
さらに、小さな特徴表現をより明確にするために、差分マップガイド機能拡張(DGFE)モジュールを開発する。
論文 参考訳(メタデータ) (2024-05-18T12:22:26Z) - Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。
エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。
我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文 参考訳(メタデータ) (2024-05-17T04:37:44Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Bridging the Performance Gap between DETR and R-CNN for Graphical Object
Detection in Document Images [11.648151981111436]
本稿では,DTRとR-CNNのパフォーマンスギャップを図形オブジェクト検出のために橋渡しする重要なステップを踏む。
異なる方法でオブジェクトクエリを変更し、ポイントを使用し、アンカーボックスを使用し、パフォーマンスを高めるためにアンカーに正と負のノイズを追加します。
我々は、PubTables、TableBank、NTable、PubLaynetの4つのグラフデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-06-23T14:46:03Z) - Tucker Bilinear Attention Network for Multi-scale Remote Sensing Object
Detection [10.060030309684953]
リモートセンシング対象の大規模変動は、VHRリモートセンシング対象検出における大きな課題の1つである。
本稿では2つの新しいモジュール, Guided Attention と Tucker Bilinear Attention を提案する。
2つのモジュールに基づいて、我々は新しいマルチスケールリモートセンシングオブジェクト検出フレームワークを構築した。
論文 参考訳(メタデータ) (2023-03-09T15:20:03Z) - Knowledge Distillation for Oriented Object Detection on Aerial Images [1.827510863075184]
本稿では,KD-RNetの知識蒸留による空中画像の回転物体検出のためのモデル圧縮手法を提案する。
大規模空中物体検出データセット(DOTA)による実験結果から,提案したKD-RNetモデルにより,パラメータ数を削減した平均値精度(mAP)が向上し,同時にKD-RNetは,基底アノテーションと高い重なり合う高品質検出を提供することで,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T14:24:16Z) - Embracing Single Stride 3D Object Detector with Sparse Transformer [63.179720817019096]
自律走行のためのLiDARを用いた3次元物体検出では、物体サイズと入力シーンサイズとの比が2次元検出の場合に比べて有意に小さい。
多くの3D検出器は2D検出器の一般的な慣習に従っており、点雲の定量化後も特徴マップを分解する。
本稿では,SST(Single-stride Sparse Transformer)を提案する。
論文 参考訳(メタデータ) (2021-12-13T02:12:02Z) - Multi-patch Feature Pyramid Network for Weakly Supervised Object
Detection in Optical Remote Sensing Images [39.25541709228373]
マルチパッチ特徴ピラミッドネットワーク(MPFP-Net)を用いたオブジェクト検出のための新しいアーキテクチャを提案する。
MPFP-Netは、トレーニング中の最も差別的なパッチのみを追求する現在のモデルとは異なる。
残余値の正則化と核融合遷移層を厳密にノルム保存する有効な方法を提案する。
論文 参考訳(メタデータ) (2021-08-18T09:25:39Z) - You Better Look Twice: a new perspective for designing accurate
detectors with reduced computations [56.34005280792013]
BLT-netは、新しい低計算の2段階オブジェクト検出アーキテクチャである。
非常にエレガントな第1ステージを使用して、オブジェクトをバックグラウンドから分離することで、計算を削減します。
結果のイメージ提案は、高度に正確なモデルによって第2段階で処理される。
論文 参考訳(メタデータ) (2021-07-21T12:39:51Z) - DA-DETR: Domain Adaptive Detection Transformer with Information Fusion [53.25930448542148]
DA-DETRは、ラベル付きソースドメインからラベルなしターゲットドメインへの効果的な転送のための情報融合を導入するドメイン適応型オブジェクト検出変換器である。
本稿では,CNN機能とトランスフォーマー機能を融合した新しいCNN-Transformer Blender(CTBlender)を提案する。
CTBlenderはTransformer機能を使用して、高レベルの意味情報と低レベルの空間情報が融合した複数のスケールでCNN機能を変調し、正確な物体識別と位置決めを行う。
論文 参考訳(メタデータ) (2021-03-31T13:55:56Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。