論文の概要: DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
- arxiv url: http://arxiv.org/abs/2411.14347v2
- Date: Fri, 06 Dec 2024 01:45:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:53:34.243373
- Title: DINO-X: A Unified Vision Model for Open-World Object Detection and Understanding
- Title(参考訳): DINO-X:オープンワールドオブジェクトの検出と理解のための統一ビジョンモデル
- Authors: Tianhe Ren, Yihao Chen, Qing Jiang, Zhaoyang Zeng, Yuda Xiong, Wenlong Liu, Zhengyu Ma, Junyi Shen, Yuan Gao, Xiaoke Jiang, Xingyu Chen, Zhuheng Song, Yuhong Zhang, Hongjie Huang, Han Gao, Shilong Liu, Hao Zhang, Feng Li, Kent Yu, Lei Zhang,
- Abstract要約: IDEA Researchが開発した統合オブジェクト中心ビジョンモデルであるDINO-Xを紹介する。
DINO-Xは、オープンワールドオブジェクト理解のためのオブジェクトレベルの表現を追求するために、Grounding DINO 1.5と同じTransformerベースのエンコーダデコーダアーキテクチャを使用している。
我々は,プロンプトのないオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発し,ユーザがプロンプトを提供することなく,画像中のあらゆるものを検出できるようにする。
- 参考スコア(独自算出の注目度): 35.522774800394664
- License:
- Abstract: In this paper, we introduce DINO-X, which is a unified object-centric vision model developed by IDEA Research with the best open-world object detection performance to date. DINO-X employs the same Transformer-based encoder-decoder architecture as Grounding DINO 1.5 to pursue an object-level representation for open-world object understanding. To make long-tailed object detection easy, DINO-X extends its input options to support text prompt, visual prompt, and customized prompt. With such flexible prompt options, we develop a universal object prompt to support prompt-free open-world detection, making it possible to detect anything in an image without requiring users to provide any prompt. To enhance the model's core grounding capability, we have constructed a large-scale dataset with over 100 million high-quality grounding samples, referred to as Grounding-100M, for advancing the model's open-vocabulary detection performance. Pre-training on such a large-scale grounding dataset leads to a foundational object-level representation, which enables DINO-X to integrate multiple perception heads to simultaneously support multiple object perception and understanding tasks, including detection, segmentation, pose estimation, object captioning, object-based QA, etc. Experimental results demonstrate the superior performance of DINO-X. Specifically, the DINO-X Pro model achieves 56.0 AP, 59.8 AP, and 52.4 AP on the COCO, LVIS-minival, and LVIS-val zero-shot object detection benchmarks, respectively. Notably, it scores 63.3 AP and 56.5 AP on the rare classes of LVIS-minival and LVIS-val benchmarks, improving the previous SOTA performance by 5.8 AP and 5.0 AP. Such a result underscores its significantly improved capacity for recognizing long-tailed objects.
- Abstract(参考訳): 本稿では,IDEA Researchが開発した統合オブジェクト中心視覚モデルであるDINO-Xについて紹介する。
DINO-Xは、オープンワールドオブジェクト理解のためのオブジェクトレベルの表現を追求するために、Grounding DINO 1.5と同じTransformerベースのエンコーダデコーダアーキテクチャを使用している。
長い尾のオブジェクト検出を容易にするため、DINO-Xは入力オプションを拡張し、テキストプロンプト、ビジュアルプロンプト、カスタマイズされたプロンプトをサポートする。
このようなフレキシブルなプロンプトオプションを用いて,プロンプトのないオープンワールド検出をサポートする汎用オブジェクトプロンプトを開発する。
モデルの中核接地性能を向上させるため,Grounding-100Mと呼ばれる1億以上の高品質接地サンプルを用いた大規模データセットを構築し,その開語彙検出性能を向上した。
これにより、DINO-Xは複数の認識ヘッドを統合し、検出、セグメンテーション、ポーズ推定、オブジェクトキャプション、オブジェクトベースのQAなどを含む複数のオブジェクト認識および理解タスクを同時にサポートすることができる。
DINO-Xの優れた性能を示す実験結果を得た。
具体的には、DINO-X Proモデルは、COCO、LVIS-minival、LVIS-valゼロショットオブジェクト検出ベンチマークでそれぞれ56.0 AP、59.8 AP、52.4 APを達成した。
特に、LVIS-minivalとLVIS-valのベンチマークで63.3 APと56.5 APを記録し、以前のSOTAのパフォーマンスを5.8 APと5.0 APで改善した。
このような結果は、長い尾を持つ物体を認識する能力が大幅に向上したことを示している。
関連論文リスト
- Frozen-DETR: Enhancing DETR with Image Understanding from Frozen Foundation Models [47.18069715855738]
近年のビジョン基礎モデルでは、普遍的な表現を抽出し、様々なタスクにおいて印象的な能力を示すことができる。
凍結基礎モデルは, 物体検出のための事前訓練を受けなくても, 汎用的特徴増強器として利用できることを示す。
論文 参考訳(メタデータ) (2024-10-25T15:38:24Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [50.16478515591924]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection [23.464027681439706]
Grounding DINO 1.5はIDEA Researchが開発した高度なオープンセットオブジェクト検出モデルである。
グラウンドディング DINO 1.5 Pro は、幅広いシナリオにまたがるより強力な一般化機能のために設計された高性能モデルである。
DINO 1.5 Edgeは、エッジデプロイメントを必要とする多くのアプリケーションで要求される高速なスピードを実現するための、効率的な最適化モデルである。
論文 参考訳(メタデータ) (2024-05-16T17:54:15Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - From Blurry to Brilliant Detection: YOLOv5-Based Aerial Object Detection
with Super Resolution [4.107182710549721]
超解像度と適応型軽量YOLOv5アーキテクチャを組み合わせた革新的なアプローチを提案する。
実験により,小型で密集した物体の検出において,モデルの性能が優れていることを示した。
論文 参考訳(メタデータ) (2024-01-26T05:50:58Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - RTMDet: An Empirical Study of Designing Real-Time Object Detectors [13.09100888887757]
我々は、YOLO級数を超え、多くのオブジェクト認識タスクに容易に対応できる効率的なリアルタイム物体検出装置を開発した。
より良いトレーニング技術とともに、得られたオブジェクト検出器はRTMDetと呼ばれ、COCOでは52.8%AP、NVIDIA 3090 GPUでは300以上のFPSを達成している。
実験結果によって、多くの物体認識タスクのための汎用的リアルタイム物体検出器の設計に関する新たな洞察が得られればと願っている。
論文 参考訳(メタデータ) (2022-12-14T18:50:20Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。