論文の概要: An Open and Comprehensive Pipeline for Unified Object Grounding and
Detection
- arxiv url: http://arxiv.org/abs/2401.02361v2
- Date: Fri, 5 Jan 2024 06:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 17:16:54.847331
- Title: An Open and Comprehensive Pipeline for Unified Object Grounding and
Detection
- Title(参考訳): オブジェクトの統一接地と検出のためのオープンで包括的なパイプライン
- Authors: Xiangyu Zhao, Yicheng Chen, Shilin Xu, Xiangtai Li, Xinjiang Wang,
Yining Li, Haian Huang
- Abstract要約: Grounding-DINOは最先端のオープンセット検出モデルである。
Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression (REC)など、複数の視覚タスクに取り組む。
- 参考スコア(独自算出の注目度): 37.527218201680675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding-DINO is a state-of-the-art open-set detection model that tackles
multiple vision tasks including Open-Vocabulary Detection (OVD), Phrase
Grounding (PG), and Referring Expression Comprehension (REC). Its effectiveness
has led to its widespread adoption as a mainstream architecture for various
downstream applications. However, despite its significance, the original
Grounding-DINO model lacks comprehensive public technical details due to the
unavailability of its training code. To bridge this gap, we present
MM-Grounding-DINO, an open-source, comprehensive, and user-friendly baseline,
which is built with the MMDetection toolbox. It adopts abundant vision datasets
for pre-training and various detection and grounding datasets for fine-tuning.
We give a comprehensive analysis of each reported result and detailed settings
for reproduction. The extensive experiments on the benchmarks mentioned
demonstrate that our MM-Grounding-DINO-Tiny outperforms the Grounding-DINO-Tiny
baseline. We release all our models to the research community. Codes and
trained models are released at
https://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dino.
- Abstract(参考訳): Grounding-DINOは最先端のオープンセット検出モデルであり、Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression Comprehension (REC)を含む複数の視覚タスクに取り組む。
その効果は、ダウンストリームアプリケーションの主流アーキテクチャとして広く採用されている。
しかし、その重要性にもかかわらず、当初のグラウンドング・ディノモデルは訓練法が適用できないため、包括的な技術詳細を欠いている。
このギャップを埋めるため,オープンソースで包括的でユーザフレンドリなベースラインであるmm-grounding-dinoをmmdetectionツールボックスで構築した。
事前学習のための豊富なビジョンデータセットと、微調整のための様々な検出および接地データセットを採用している。
報告された各結果の包括的分析と再現のための詳細な設定を行う。
上で述べたベンチマーク実験は、MM-Grounding-DINO-Tinyがグラウンディング-DINO-Tinyベースラインを上回っていることを示している。
すべてのモデルを研究コミュニティにリリースします。
コードとトレーニングされたモデルはhttps://github.com/open-mmlab/mmdetection/tree/main/configs/mm_grounding_dinoでリリースされる。
関連論文リスト
- DBA-Fusion: Tightly Integrating Deep Dense Visual Bundle Adjustment with Multiple Sensors for Large-Scale Localization and Mapping [3.5047603107971397]
トレーニング可能な高密度バンドル調整(DBA)を因子グラフを通じて多センサ情報と密に統合する。
視覚-慣性統合のためのパイプラインが最初に開発され、メカニカルスケールのローカライゼーションとマッピングの最小限の能力を提供する。
その結果,大規模環境におけるリアルタイム高密度マッピングを実現する手法として,より優れたローカライゼーション性能が得られた。
論文 参考訳(メタデータ) (2024-03-20T16:20:54Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Unsupervised Domain Adaption for Neural Information Retrieval [18.97486314518283]
本稿では,Large Language Models やルールベースの文字列操作を用いたクエリ生成による合成アノテーションの比較を行う。
大規模言語モデルは,すべてのシナリオにおいて,ルールベースの手法よりも大きなマージンで優れていることがわかった。
さらに、オープンな大規模言語モデルを用いて、合成データを生成し、中規模モデルで十分であることを示す。
論文 参考訳(メタデータ) (2023-10-13T18:27:33Z) - UDTIRI: An Online Open-Source Intelligent Road Inspection Benchmark
Suite [21.565438268381467]
このベンチマークスイートで公開された最初のオンラインコンペである道路穴検出タスクを紹介します。
我々のベンチマークは、最先端のオブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションネットワークの体系的かつ徹底的な評価を提供する。
多様な道路条件をより包括的に理解したアルゴリズムを提供することで、未解決の可能性を解き明かそうとしている。
論文 参考訳(メタデータ) (2023-04-18T09:13:52Z) - Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set
Object Detection [61.36980301165925]
そこで我々は,Transformer-based detector DINO と接地事前学習を併用したオープンセット型物体検出器である Grounding DINO を提案する。
オープンセットオブジェクト検出の鍵となる解決策は、オープンセットの概念一般化のためのクローズドセット検出器に言語を導入することである。
DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。
論文 参考訳(メタデータ) (2023-03-09T18:52:16Z) - Learning Signal-Agnostic Manifolds of Neural Fields [50.066449953522685]
ニューラルネットワークを利用して、画像、形状、オーディオ、およびモーダル・オーディオヴィジュアル領域の基盤となる構造を捉える。
GEMの基底多様体を横切ることで、信号領域に新しいサンプルを生成できることが示される。
論文 参考訳(メタデータ) (2021-11-11T18:57:40Z) - Joint Distribution across Representation Space for Out-of-Distribution
Detection [16.96466730536722]
本稿では,各隠蔽層から生成した潜伏特性を表現空間間の連成分布として利用し,分布内データに対する新たな展望を示す。
まず,隠れ層ごとに分布しない潜在特性に基づいてガウス混合モデル(GMM)を構築し,その後,推定トレースの遷移確率を介してGMMを接続する。
論文 参考訳(メタデータ) (2021-03-23T06:39:29Z) - MOCCA: Multi-Layer One-Class ClassificAtion for Anomaly Detection [16.914663209964697]
我々は,Multi-Layer One-Class Classification (MOCCA) と呼ばれる異常検出問題に対するディープラーニングアプローチを提案する。
異なる深さで抽出された情報を利用して異常なデータインスタンスを検出することで、ディープニューラルネットワークのピースワイズ的性質を明示的に活用します。
本稿では,本手法が文献で利用可能な最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-09T08:32:56Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。