論文の概要: Real-Time Object Detection Meets DINOv3
- arxiv url: http://arxiv.org/abs/2509.20787v1
- Date: Thu, 25 Sep 2025 06:14:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.725135
- Title: Real-Time Object Detection Meets DINOv3
- Title(参考訳): DINOv3でリアルタイムオブジェクト検出が可能に
- Authors: Shihua Huang, Yongjie Hou, Longfei Liu, Xuanlong Yu, Xi Shen,
- Abstract要約: 私たちはDEIMをDINOv3機能で拡張し、結果としてDEIMv2を作りました。
X、L、M、Sの変異体では、DINOv3を前処理または蒸留したバックボーンを採用する。
超軽量モデル(Nano、Pico、Femto、Atto)では、厳格なリソース予算を満たすために、深さと幅のプルーニングを備えたHGNetv2を使用します。
- 参考スコア(独自算出の注目度): 8.019044284725
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from the simplicity and effectiveness of Dense O2O and MAL, DEIM has become the mainstream training framework for real-time DETRs, significantly outperforming the YOLO series. In this work, we extend it with DINOv3 features, resulting in DEIMv2. DEIMv2 spans eight model sizes from X to Atto, covering GPU, edge, and mobile deployment. For the X, L, M, and S variants, we adopt DINOv3-pretrained or distilled backbones and introduce a Spatial Tuning Adapter (STA), which efficiently converts DINOv3's single-scale output into multi-scale features and complements strong semantics with fine-grained details to enhance detection. For ultra-lightweight models (Nano, Pico, Femto, and Atto), we employ HGNetv2 with depth and width pruning to meet strict resource budgets. Together with a simplified decoder and an upgraded Dense O2O, this unified design enables DEIMv2 to achieve a superior performance-cost trade-off across diverse scenarios, establishing new state-of-the-art results. Notably, our largest model, DEIMv2-X, achieves 57.8 AP with only 50.3 million parameters, surpassing prior X-scale models that require over 60 million parameters for just 56.5 AP. On the compact side, DEIMv2-S is the first sub-10 million model (9.71 million) to exceed the 50 AP milestone on COCO, reaching 50.9 AP. Even the ultra-lightweight DEIMv2-Pico, with just 1.5 million parameters, delivers 38.5 AP, matching YOLOv10-Nano (2.3 million) with around 50 percent fewer parameters.
- Abstract(参考訳): Dense O2O と MAL の簡易性と有効性により、DEIM はリアルタイム DETR の主流トレーニングフレームワークとなり、YOLO シリーズを著しく上回っている。
この作業では、DINOv3機能で拡張し、結果としてDEIMv2になります。
DEIMv2は、XからAttoまでの8つのモデルサイズで、GPU、エッジ、モバイルデプロイメントをカバーする。
X, L, M, S の変種に対しては、DINOv3 の事前訓練または蒸留したバックボーンを採用し、DINOv3 の単一スケール出力をマルチスケールの特徴に変換する空間調整アダプタ (STA) を導入する。
超軽量モデル(Nano、Pico、Femto、Atto)では、厳格なリソース予算を満たすために、深さと幅のプルーニングを備えたHGNetv2を使用します。
単純化されたデコーダとアップグレードされたDense O2Oとともに、この統一設計により、DEIMv2は様々なシナリオで優れたパフォーマンスとコストのトレードオフを達成でき、新しい最先端の結果が確立できる。
特に、私たちの最大のモデルであるDEIMv2-Xは、わずか50.3百万のパラメータを持つ57.8 APを達成し、56.5APで6000万以上のパラメータを必要とする以前のXスケールモデルを上回っています。
コンパクトな面では、DEIMv2-SはCOCOの50APマイルストーンを超え、50.9APに達した最初のサブ-10Mモデル(9.71M)である。
超軽量のDEIMv2-Picoでさえ150万のパラメータしか持たず、約50%のパラメータでYOLOv10-Nano (230万)と一致して38.5APを提供する。
関連論文リスト
- A Light Perspective for 3D Object Detection [46.23578780480946]
本稿では,最先端のDeep Learning技術を特徴抽出に取り入れた新しい手法を提案する。
私たちのモデルであるNextBEVは、ResNet50やMobileNetV3といった既存の機能抽出ツールを超えています。
これらの軽量な提案を融合することにより、VoxelNetベースのモデルの精度を2.93%向上し、PointPillarベースのモデルのF1スコアを約20%改善しました。
論文 参考訳(メタデータ) (2025-03-10T10:03:23Z) - EMOv2: Pushing 5M Vision Model Frontier [92.21687467702972]
様々な下流タスクにおいて,5M級軽量モデルの新たなフロンティアを構築した。
我々の研究は、Transformerにおける効率的なIRBと実用的なコンポーネントの軽量なインフラを再考する。
4G/5G帯でモデルをダウンロードする場合のモバイルユーザの遅延を考慮し,5M程度の軽量モデルの性能上限について検討する。
論文 参考訳(メタデータ) (2024-12-09T17:12:22Z) - Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection [23.464027681439706]
Grounding DINO 1.5はIDEA Researchが開発した高度なオープンセットオブジェクト検出モデルである。
グラウンドディング DINO 1.5 Pro は、幅広いシナリオにまたがるより強力な一般化機能のために設計された高性能モデルである。
DINO 1.5 Edgeは、エッジデプロイメントを必要とする多くのアプリケーションで要求される高速なスピードを実現するための、効率的な最適化モデルである。
論文 参考訳(メタデータ) (2024-05-16T17:54:15Z) - YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5 [19.388112026410045]
YOLO-TLAは、YOLOv5上に構築された高度な物体検出モデルである。
まず、ネックネットワークピラミッドアーキテクチャにおいて、小さなオブジェクトに対する検出層を新たに導入する。
このモジュールはスライディングウィンドウの特徴抽出を使い、計算要求とパラメータ数の両方を効果的に最小化する。
論文 参考訳(メタデータ) (2024-02-22T05:55:17Z) - SMPLer-X: Scaling Up Expressive Human Pose and Shape Estimation [83.18930314027254]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
本研究では,VT-Huge をバックボーンとする第1次一般基礎モデル (SMPLer-X) に向けた EHPS のスケールアップについて検討する。
ビッグデータと大規模モデルにより、SMPLer-Xは、さまざまなテストベンチマークにまたがる強力なパフォーマンスと、目に見えない環境への優れた転送性を示す。
論文 参考訳(メタデータ) (2023-09-29T17:58:06Z) - EdgeYOLO: An Edge-Real-Time Object Detector [69.41688769991482]
本稿では, 最先端のYOLOフレームワークをベースとした, 効率的で低複雑さかつアンカーフリーな物体検出器を提案する。
我々は,訓練中の過剰適合を効果的に抑制する拡張データ拡張法を開発し,小型物体の検出精度を向上させるためにハイブリッドランダム損失関数を設計する。
私たちのベースラインモデルは、MS 2017データセットで50.6%のAP50:95と69.8%のAP50、VisDrone 2019-DETデータセットで26.4%のAP50と44.8%のAP50に達し、エッジコンピューティングデバイスNvidia上でリアルタイム要求(FPS>=30)を満たす。
論文 参考訳(メタデータ) (2023-02-15T06:05:14Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs [14.85882314822983]
ディープニューラルネットワーク(DNN)ベースのオブジェクト検出モデルをエッジデバイスにマップするには、通常、そのようなモデルを著しく圧縮する必要がある。
本稿では,マルチスケール機能インタラクションのためのエッジGPUフレンドリなモジュールを提案する。
また,様々なタスク間の翻訳情報の流れの変化にインスパイアされた,新たな学習バックボーンの導入を提案する。
論文 参考訳(メタデータ) (2021-10-26T14:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。