論文の概要: Cross-DINO: Cross the Deep MLP and Transformer for Small Object Detection
- arxiv url: http://arxiv.org/abs/2505.21868v1
- Date: Wed, 28 May 2025 01:33:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.352807
- Title: Cross-DINO: Cross the Deep MLP and Transformer for Small Object Detection
- Title(参考訳): クロスダイノ:小物体検出のための深部MLPと変圧器
- Authors: Guiping Cao, Wenjian Huang, Xiangyuan Lan, Jianguo Zhang, Dongmei Jiang, Yaowei Wang,
- Abstract要約: スモールオブジェクト検出(SOD)は、限られた情報とモデルの低クラス予測スコアのために重大な課題を提起する。
これらの課題に対処するために,クロスディーノと呼ばれる新しいアプローチを導入する。
そこで本研究では,SOD上でのDETRライクなモデルの性能を効果的に向上することを示す。
- 参考スコア(独自算出の注目度): 39.56089737473775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Small Object Detection (SOD) poses significant challenges due to limited information and the model's low class prediction score. While Transformer-based detectors have shown promising performance, their potential for SOD remains largely unexplored. In typical DETR-like frameworks, the CNN backbone network, specialized in aggregating local information, struggles to capture the necessary contextual information for SOD. The multiple attention layers in the Transformer Encoder face difficulties in effectively attending to small objects and can also lead to blurring of features. Furthermore, the model's lower class prediction score of small objects compared to large objects further increases the difficulty of SOD. To address these challenges, we introduce a novel approach called Cross-DINO. This approach incorporates the deep MLP network to aggregate initial feature representations with both short and long range information for SOD. Then, a new Cross Coding Twice Module (CCTM) is applied to integrate these initial representations to the Transformer Encoder feature, enhancing the details of small objects. Additionally, we introduce a new kind of soft label named Category-Size (CS), integrating the Category and Size of objects. By treating CS as new ground truth, we propose a new loss function called Boost Loss to improve the class prediction score of the model. Extensive experimental results on COCO, WiderPerson, VisDrone, AI-TOD, and SODA-D datasets demonstrate that Cross-DINO efficiently improves the performance of DETR-like models on SOD. Specifically, our model achieves 36.4% APs on COCO for SOD with only 45M parameters, outperforming the DINO by +4.4% APS (36.4% vs. 32.0%) with fewer parameters and FLOPs, under 12 epochs training setting. The source codes will be available at https://github.com/Med-Process/Cross-DINO.
- Abstract(参考訳): スモールオブジェクト検出(SOD)は、限られた情報とモデルの低クラス予測スコアのために重大な課題を提起する。
トランスフォーマーをベースとした検出器は有望な性能を示したが、SODの可能性はほとんど解明されていない。
典型的なDETRのようなフレームワークでは、ローカル情報の集約に特化したCNNバックボーンネットワークは、SODに必要なコンテキスト情報を取得するのに苦労する。
Transformer Encoderの複数の注意層は、小さなオブジェクトに効果的に出席することが困難であり、機能の曖昧化につながる可能性がある。
さらに,SODの難易度をさらに高めるため,小物体の低クラス予測スコアを大物体と比較した。
これらの課題に対処するために,クロスディーノと呼ばれる新しいアプローチを導入する。
このアプローチは、SODの短距離情報と短距離情報の両方で初期特徴表現を集約するために、深層MLPネットワークを組み込む。
次に、新しいCross Coding Twice Module (CCTM)を適用して、これらの初期表現をTransformer Encoder機能に統合し、小さなオブジェクトの詳細を強化する。
さらに,カテゴリ・サイズ (CS) という新しい種類のソフトラベルを導入し,オブジェクトのカテゴリとサイズを統合する。
CSを新たな基礎的真理として扱うことにより,モデルのクラス予測スコアを改善するために,Boost Lossと呼ばれる新たな損失関数を提案する。
COCO, WiderPerson, VisDrone, AI-TOD, SODA-Dデータセットの大規模な実験結果から,Cross-DINOはSOOD上でのDETRライクなモデルの性能を効率的に向上することが示された。
具体的には,SOD の COCO に対する36.4% の AP をわずか45M のパラメータで達成し,DINO を+4.4% の APS (36.4% 対 32.0%) より少ないパラメータと FLOP で上回った。
ソースコードはhttps://github.com/Med-Process/Cross-DINOで入手できる。
関連論文リスト
- Learning Dynamic Local Context Representations for Infrared Small Target Detection [5.897465234102489]
複雑な背景、低信号/クラッタ比、ターゲットサイズと形状の違いにより、赤外線小目標検出(ISTD)は困難である。
ISTDの動的局所文脈表現を学習する新しい手法であるLCRNetを提案する。
1.65Mのパラメータだけで、LCRNetは最先端(SOTA)のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-12-23T09:06:27Z) - Better Sampling, towards Better End-to-end Small Object Detection [7.7473020808686694]
限られた特性と高密度と相互重なり合いのため、小さな物体検出は不満足なままである。
エンド・ツー・エンド・フレームワークにおけるサンプリングの強化手法を提案する。
我々のモデルは、VisDroneデータセット上での最先端(SOTA)よりも平均精度(AP)が2.9%向上することを示す。
論文 参考訳(メタデータ) (2024-05-17T04:37:44Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Decoupled DETR For Few-shot Object Detection [4.520231308678286]
サンプル不均衡と弱い特徴伝搬の深刻な問題に対処するためにFSODモデルを改善した。
出力機能としてデコーダ層を動的に融合できる統一デコーダモジュールを構築しました。
提案するモジュールは,微調整とメタラーニングの両方のパラダイムにおいて,5%から10%の安定的な改善を達成できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-20T07:10:39Z) - Small Object Detection via Coarse-to-fine Proposal Generation and
Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。
CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-08-18T13:13:09Z) - Chosen methods of improving object recognition of small objects with
weak recognizable features [0.0]
適切なGANモデルを使用することで、その量と多様性を増大させる低精度データの増大が可能になる。
本研究では,VOC Pascalデータセット上での小さなオブジェクト検出を改善するため,拡張型GAN法を提案する。
論文 参考訳(メタデータ) (2022-08-29T13:39:02Z) - DecAug: Augmenting HOI Detection via Decomposition [54.65572599920679]
現在のアルゴリズムでは、データセット内のトレーニングサンプルやカテゴリの不均衡が不足している。
本稿では,HOI検出のためのDECAugと呼ばれる効率的かつ効率的なデータ拡張手法を提案する。
実験の結果,V-COCOおよびHICODETデータセットの3.3mAPと1.6mAPの改善が得られた。
論文 参考訳(メタデータ) (2020-10-02T13:59:05Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。