論文の概要: Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set
Object Detection
- arxiv url: http://arxiv.org/abs/2303.05499v4
- Date: Mon, 20 Mar 2023 06:57:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 22:57:15.731017
- Title: Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set
Object Detection
- Title(参考訳): grounding dino: オープンセット物体検出のための grounded pre-training と dino の結婚
- Authors: Shilong Liu, Zhaoyang Zeng, Tianhe Ren, Feng Li, Hao Zhang, Jie Yang,
Chunyuan Li, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang
- Abstract要約: そこで我々は,Transformer-based detector DINO と接地事前学習を併用したオープンセット型物体検出器である Grounding DINO を提案する。
オープンセットオブジェクト検出の鍵となる解決策は、オープンセットの概念一般化のためのクローズドセット検出器に言語を導入することである。
DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。
- 参考スコア(独自算出の注目度): 61.36980301165925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an open-set object detector, called Grounding DINO,
by marrying Transformer-based detector DINO with grounded pre-training, which
can detect arbitrary objects with human inputs such as category names or
referring expressions. The key solution of open-set object detection is
introducing language to a closed-set detector for open-set concept
generalization. To effectively fuse language and vision modalities, we
conceptually divide a closed-set detector into three phases and propose a tight
fusion solution, which includes a feature enhancer, a language-guided query
selection, and a cross-modality decoder for cross-modality fusion. While
previous works mainly evaluate open-set object detection on novel categories,
we propose to also perform evaluations on referring expression comprehension
for objects specified with attributes. Grounding DINO performs remarkably well
on all three settings, including benchmarks on COCO, LVIS, ODinW, and
RefCOCO/+/g. Grounding DINO achieves a $52.5$ AP on the COCO detection
zero-shot transfer benchmark, i.e., without any training data from COCO. It
sets a new record on the ODinW zero-shot benchmark with a mean $26.1$ AP. Code
will be available at \url{https://github.com/IDEA-Research/GroundingDINO}.
- Abstract(参考訳): そこで本稿では,TransformerをベースとしたDINOと事前学習を併用し,カテゴリ名や参照表現などの入力によって任意の物体を検出可能な,Grounding DINOと呼ばれるオープンセットオブジェクト検出器を提案する。
オープンセットオブジェクト検出の重要な解決策は、オープンセット概念一般化のためのクローズドセット検出器に言語を導入することである。
言語と視覚のモダリティを効果的に融合するために,概念的にクローズドセット検出器を3つのフェーズに分け,特徴エンハンサー,言語案内クエリ選択,クロスモダリティ融合のためのクロスモダリティデコーダを含む密接な融合ソリューションを提案する。
先行研究は,新しいカテゴリのオープンセット物体検出を主に評価する一方で,属性で指定された対象に対する参照表現理解の評価も行う。
DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。
グラウンディングDINOはCOCO検出ゼロショット転送ベンチマーク(つまりCOCOからのトレーニングデータなしで)で52.5ドルのAPを達成している。
odinw zero-shotベンチマークに26.1$ apという新記録を樹立した。
コードは \url{https://github.com/IDEA-Research/GroundingDINO} で入手できる。
関連論文リスト
- Weakly Supervised Open-Vocabulary Object Detection [31.605276665964787]
本稿では、従来のWSODを拡張するために、弱教師付きオープン語彙オブジェクト検出フレームワーク、すなわちWSOVODを提案する。
これを実現するために、データセットレベルの特徴適応、画像レベルの有意なオブジェクトローカライゼーション、地域レベルの視覚言語アライメントを含む3つの重要な戦略を検討する。
論文 参考訳(メタデータ) (2023-12-19T18:59:53Z) - Enhancing Novel Object Detection via Cooperative Foundational Models [75.30243629533277]
本稿では,既存のクローズドセット検出器をオープンセット検出器に変換する新しい手法を提案する。
私たちは、新しいクラスに対して7.2$ textAP_50 のマージンで現在の最先端を越えています。
論文 参考訳(メタデータ) (2023-11-19T17:28:28Z) - What Makes Good Open-Vocabulary Detector: A Disassembling Perspective [6.623703413255309]
Open-vocabulary Detection (OVD)は、新しいオブジェクト検出パラダイムである。
先行研究は主にオープン語彙分類部に焦点をあて、ローカライゼーション部分にはあまり注意を払わなかった。
本研究は, 局所化とクロスモーダル分類の改善が相互に補完し, 良好なOVD検出器を共同で構成することを示す。
論文 参考訳(メタデータ) (2023-09-01T03:03:50Z) - Open-Vocabulary Point-Cloud Object Detection without 3D Annotation [62.18197846270103]
オープン語彙の3Dポイントクラウド検出の目的は、任意のテキスト記述に基づいて新しいオブジェクトを識別することである。
様々な物体を局所化するための一般的な表現を学習できる点クラウド検出器を開発した。
また,画像,点雲,テキストのモダリティを結合する,非偏差三重項クロスモーダルコントラスト学習を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:22:02Z) - Open-Set Object Detection Using Classification-free Object Proposal and
Instance-level Contrastive Learning [25.935629339091697]
オープンセットオブジェクト検出(OSOD)は、オブジェクトと背景分離、オープンセットオブジェクト分類という2つのサブタスクからなる問題を処理するための有望な方向である。
我々は,OSODの課題に対処するため,Openset RCNNを提案する。
我々のOpenset RCNNは、散らばった環境下でロボットの並べ替えタスクをサポートするオープンセットの知覚能力でロボットを支援できることを示します。
論文 参考訳(メタデータ) (2022-11-21T15:00:04Z) - GLENet: Boosting 3D Object Detectors with Generative Label Uncertainty Estimation [70.75100533512021]
本稿では,対象物の潜在的可算有界箱の多様性として,ラベルの不確実性問題を定式化する。
本稿では,条件付き変分オートエンコーダを応用した生成フレームワークであるGLENetを提案する。
GLENetが生成するラベルの不確実性はプラグアンドプレイモジュールであり、既存のディープ3D検出器に便利に統合することができる。
論文 参考訳(メタデータ) (2022-07-06T06:26:17Z) - Disentangle Your Dense Object Detector [82.22771433419727]
深層学習に基づく高密度物体検出器はここ数年で大きな成功を収め、ビデオ理解などのマルチメディアアプリケーションにも応用されてきた。
しかし、現在の高密度検出器の訓練パイプラインは、保持できない多くの接続に妥協されている。
そこで本研究では, 簡易かつ効果的な遠心分離機構を設計し, 現在の最先端検出器に統合するDED(Disentangled Dense Object Detector)を提案する。
論文 参考訳(メタデータ) (2021-07-07T00:52:16Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。