論文の概要: Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
- arxiv url: http://arxiv.org/abs/2405.10300v1
- Date: Thu, 16 May 2024 17:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 13:23:28.330553
- Title: Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection
- Title(参考訳): DINO 1.5: Open-Set Object Detection の "Edge" を推進
- Authors: Tianhe Ren, Qing Jiang, Shilong Liu, Zhaoyang Zeng, Wenlong Liu, Han Gao, Hongjie Huang, Zhengyu Ma, Xiaoke Jiang, Yihao Chen, Yuda Xiong, Hao Zhang, Feng Li, Peijun Tang, Kent Yu, Lei Zhang,
- Abstract要約: Grounding DINO 1.5はIDEA Researchが開発した高度なオープンセットオブジェクト検出モデルである。
グラウンドディング DINO 1.5 Pro は、幅広いシナリオにまたがるより強力な一般化機能のために設計された高性能モデルである。
DINO 1.5 Edgeは、エッジデプロイメントを必要とする多くのアプリケーションで要求される高速なスピードを実現するための、効率的な最適化モデルである。
- 参考スコア(独自算出の注目度): 23.464027681439706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Grounding DINO 1.5, a suite of advanced open-set object detection models developed by IDEA Research, which aims to advance the "Edge" of open-set object detection. The suite encompasses two models: Grounding DINO 1.5 Pro, a high-performance model designed for stronger generalization capability across a wide range of scenarios, and Grounding DINO 1.5 Edge, an efficient model optimized for faster speed demanded in many applications requiring edge deployment. The Grounding DINO 1.5 Pro model advances its predecessor by scaling up the model architecture, integrating an enhanced vision backbone, and expanding the training dataset to over 20 million images with grounding annotations, thereby achieving a richer semantic understanding. The Grounding DINO 1.5 Edge model, while designed for efficiency with reduced feature scales, maintains robust detection capabilities by being trained on the same comprehensive dataset. Empirical results demonstrate the effectiveness of Grounding DINO 1.5, with the Grounding DINO 1.5 Pro model attaining a 54.3 AP on the COCO detection benchmark and a 55.7 AP on the LVIS-minival zero-shot transfer benchmark, setting new records for open-set object detection. Furthermore, the Grounding DINO 1.5 Edge model, when optimized with TensorRT, achieves a speed of 75.2 FPS while attaining a zero-shot performance of 36.2 AP on the LVIS-minival benchmark, making it more suitable for edge computing scenarios. Model examples and demos with API will be released at https://github.com/IDEA-Research/Grounding-DINO-1.5-API
- Abstract(参考訳): 本稿では, IDEA Research が開発した高度なオープンセットオブジェクト検出モデルである Grounding DINO 1.5 について紹介する。
スイートには2つのモデルが含まれている: Grounding DINO 1.5 Pro、幅広いシナリオにわたるより強力な一般化機能のために設計された高性能モデル、Grounding DINO 1.5 Edge、エッジデプロイを必要とする多くのアプリケーションで要求される高速な速度に最適化された効率的なモデル。
Grounding DINO 1.5 Proモデルは、モデルアーキテクチャをスケールアップし、拡張されたビジョンバックボーンを統合し、トレーニングデータセットをグラウンドアノテーションで2000万以上のイメージに拡張することで、よりリッチなセマンティック理解を実現することで、前バージョンを進化させた。
Grounding DINO 1.5 Edgeモデルは、機能スケールを縮小した効率性のために設計されたが、同じ包括的なデータセットでトレーニングすることで堅牢な検出能力を維持している。
実験的な結果は、グラウンディングDINO 1.5 ProモデルがCOCO検出ベンチマークで54.3 AP、LVIS最小のゼロショット転送ベンチマークで55.7 APに達し、オープンセットオブジェクト検出のための新しいレコードが設定されたことにより、グラウンディングDINO 1.5の有効性を示す。
さらに、Grounding DINO 1.5 EdgeモデルはTensorRTで最適化されると75.2 FPSの速度を実現し、LVIS-minivalベンチマークで36.2 APのゼロショット性能を実現し、エッジコンピューティングのシナリオにより適している。
APIを使ったモデル例とデモがhttps://github.com/IDEA-Research/Grounding-DINO-1.5-APIで公開される。
関連論文リスト
- DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding [35.522774800394664]
IDEA Researchが開発した統合オブジェクト中心ビジョンモデルであるDINO-Xを紹介する。
DINO-Xは、オープンワールドオブジェクト理解のためのオブジェクトレベルの表現を追求するために、Grounding DINO 1.5と同じTransformerベースのエンコーダデコーダアーキテクチャを使用している。
我々は,プロンプトのないオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発し,ユーザがプロンプトを提供することなく,画像中のあらゆるものを検出できるようにする。
論文 参考訳(メタデータ) (2024-11-21T17:42:20Z) - From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection
with Super Resolution [4.107182710549721]
超解像度と適応型軽量YOLOv5アーキテクチャを組み合わせた革新的なアプローチを提案する。
実験により,小型で密集した物体の検出において,モデルの性能が優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - Semantic Segmentation in Satellite Hyperspectral Imagery by Deep Learning [54.094272065609815]
本稿では1D-Justo-LiuNetという軽量な1D-CNNモデルを提案する。
1D-Justo-LiuNetは、全てのテストモデルの中で最小のモデルサイズ (4,563 パラメータ) を持つ最大精度 (0.93) を達成する。
論文 参考訳(メタデータ) (2023-10-24T21:57:59Z) - Ultra-low Power Deep Learning-based Monocular Relative Localization
Onboard Nano-quadrotors [64.68349896377629]
この研究は、2つのピアナノドロンのディープニューラルネットワーク(DNN)を介して、単分子の相対的な局所化に対処する、新しい自律的なエンドツーエンドシステムを示す。
超制約ナノドローンプラットフォームに対処するため,データセットの増大,量子化,システム最適化などを含む垂直統合フレームワークを提案する。
実験の結果,DNNは低分解能モノクローム画像のみを用いて最大2mの距離で10cmのターゲットナノドローンを正確に局在させることができることがわかった。
論文 参考訳(メタデータ) (2023-03-03T14:14:08Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - DEYO: DETR with YOLO for Step-by-Step Object Detection [0.0]
本稿では, YOLO (DEYO) を用いた新しい2段階物体検出モデルDETRを提案する。
第1ステージは高品質なクエリと第2ステージへのアンカー供給を提供し、オリジナルのDETRモデルと比較して第2ステージの性能と効率を改善した。
実験の結果、DEYOは12時間で50.6 AP、52.1 AP、36時間でそれぞれ到達した。
論文 参考訳(メタデータ) (2022-11-12T06:36:17Z) - Optimizing Anchor-based Detectors for Autonomous Driving Scenes [22.946814647030667]
本稿では、自律走行シーンにおける一般的なアンカーベース検出器のモデル改善と推定時間最適化について要約する。
高性能RCNN-RSおよびRetinaNet-RS検出フレームワークに基づいて,群衆シーンの小さな物体をよりよく検出するために,検出器に適応するための一連のフレームワークの改善について検討した。
論文 参考訳(メタデータ) (2022-08-11T22:44:59Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。