論文の概要: An Open and Comprehensive Pipeline for Unified Object Grounding and
Detection
- arxiv url: http://arxiv.org/abs/2401.02361v1
- Date: Thu, 4 Jan 2024 17:00:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 14:33:07.633668
- Title: An Open and Comprehensive Pipeline for Unified Object Grounding and
Detection
- Title(参考訳): オブジェクトの統一接地と検出のためのオープンで包括的なパイプライン
- Authors: Xiangyu Zhao, Yicheng Chen, Shilin Xu, Xiangtai Li, Xinjiang Wang,
Yining Li, Haian Huang
- Abstract要約: Grounding-DINOは最先端のオープンセット検出モデルである。
Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression (REC)など、複数の視覚タスクに取り組む。
- 参考スコア(独自算出の注目度): 37.527218201680675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grounding-DINO is a state-of-the-art open-set detection model that tackles
multiple vision tasks including Open-Vocabulary Detection (OVD), Phrase
Grounding (PG), and Referring Expression Comprehension (REC). Its effectiveness
has led to its widespread adoption as a mainstream architecture for various
downstream applications. However, despite its significance, the original
Grounding-DINO model lacks comprehensive public technical details due to the
unavailability of its training code. To bridge this gap, we present
MM-Grounding-DINO, an open-source, comprehensive, and user-friendly baseline,
which is built with the MMDetection toolbox. It adopts abundant vision datasets
for pre-training and various detection and grounding datasets for fine-tuning.
We give a comprehensive analysis of each reported result and detailed settings
for reproduction. The extensive experiments on the benchmarks mentioned
demonstrate that our MM-Grounding-DINO-Tiny outperforms the Grounding-DINO-Tiny
baseline. We release all our models to the research community. Codes and
trained models are released at
https://github.com/open-mmlab/mmdetection/configs/mm_grounding_dino.
- Abstract(参考訳): Grounding-DINOは最先端のオープンセット検出モデルであり、Open-Vocabulary Detection (OVD)、Phrase Grounding (PG)、Referring Expression Comprehension (REC)を含む複数の視覚タスクに取り組む。
その効果は、ダウンストリームアプリケーションの主流アーキテクチャとして広く採用されている。
しかし、その重要性にもかかわらず、当初のグラウンドング・ディノモデルは訓練法が適用できないため、包括的な技術詳細を欠いている。
このギャップを埋めるため,オープンソースで包括的でユーザフレンドリなベースラインであるmm-grounding-dinoをmmdetectionツールボックスで構築した。
事前学習のための豊富なビジョンデータセットと、微調整のための様々な検出および接地データセットを採用している。
報告された各結果の包括的分析と再現のための詳細な設定を行う。
上で述べたベンチマーク実験は、MM-Grounding-DINO-Tinyがグラウンディング-DINO-Tinyベースラインを上回っていることを示している。
すべてのモデルを研究コミュニティにリリースします。
コードとトレーニングされたモデルはhttps://github.com/open-mmlab/mmdetection/configs/mm_grounding_dinoでリリースされる。
関連論文リスト
- TanDepth: Leveraging Global DEMs for Metric Monocular Depth Estimation in UAVs [5.6168844664788855]
本研究は,推定時間における相対的推定値から計量深度値を求めるための,実践的なオンラインスケール回復手法であるTanDepthを提案する。
本手法は無人航空機(UAV)の用途に応用され,GDEM(Global Digital Elevation Models)のスパース計測をカメラビューに投影することで活用する。
推定深度マップから接地点を選択して、投影された基準点と相関するクラスシミュレーションフィルタへの適応を示す。
論文 参考訳(メタデータ) (2024-09-08T15:54:43Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [52.228708947607636]
本稿では,新しい手法のモジュラーフレームワークであるADerを包括的視覚異常検出ベンチマークとして紹介する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - DBA-Fusion: Tightly Integrating Deep Dense Visual Bundle Adjustment with Multiple Sensors for Large-Scale Localization and Mapping [3.5047603107971397]
トレーニング可能な高密度バンドル調整(DBA)を因子グラフを通じて多センサ情報と密に統合する。
視覚-慣性統合のためのパイプラインが最初に開発され、メカニカルスケールのローカライゼーションとマッピングの最小限の能力を提供する。
その結果,大規模環境におけるリアルタイム高密度マッピングを実現する手法として,より優れたローカライゼーション性能が得られた。
論文 参考訳(メタデータ) (2024-03-20T16:20:54Z) - Exploring Plain ViT Reconstruction for Multi-class Unsupervised Anomaly Detection [128.40330044868293]
Vision Transformer (ViT) では、より単純なアーキテクチャが複数のドメインで有効であることが証明されている。
ViTADはMVTec AD、VisA、Uni-Medicalデータセット上で最先端の結果と効率を達成する。
論文 参考訳(メタデータ) (2023-12-12T18:28:59Z) - Unsupervised Domain Adaption for Neural Information Retrieval [18.97486314518283]
本稿では,Large Language Models やルールベースの文字列操作を用いたクエリ生成による合成アノテーションの比較を行う。
大規模言語モデルは,すべてのシナリオにおいて,ルールベースの手法よりも大きなマージンで優れていることがわかった。
さらに、オープンな大規模言語モデルを用いて、合成データを生成し、中規模モデルで十分であることを示す。
論文 参考訳(メタデータ) (2023-10-13T18:27:33Z) - UDTIRI: An Online Open-Source Intelligent Road Inspection Benchmark
Suite [21.565438268381467]
このベンチマークスイートで公開された最初のオンラインコンペである道路穴検出タスクを紹介します。
我々のベンチマークは、最先端のオブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションネットワークの体系的かつ徹底的な評価を提供する。
多様な道路条件をより包括的に理解したアルゴリズムを提供することで、未解決の可能性を解き明かそうとしている。
論文 参考訳(メタデータ) (2023-04-18T09:13:52Z) - Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection [76.5120397167247]
そこで我々は,Transformer-based detector DINO と接地事前学習を併用したオープンセット型物体検出器である Grounding DINO を提案する。
オープンセットオブジェクト検出の鍵となる解決策は、オープンセットの概念一般化のためのクローズドセット検出器に言語を導入することである。
DINOはCOCO、LVIS、ODinW、RefCOCO/+/gのベンチマークを含む3つの設定で非常によく機能する。
論文 参考訳(メタデータ) (2023-03-09T18:52:16Z) - MOCCA: Multi-Layer One-Class ClassificAtion for Anomaly Detection [16.914663209964697]
我々は,Multi-Layer One-Class Classification (MOCCA) と呼ばれる異常検出問題に対するディープラーニングアプローチを提案する。
異なる深さで抽出された情報を利用して異常なデータインスタンスを検出することで、ディープニューラルネットワークのピースワイズ的性質を明示的に活用します。
本稿では,本手法が文献で利用可能な最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2020-12-09T08:32:56Z) - Contextual-Bandit Anomaly Detection for IoT Data in Distributed
Hierarchical Edge Computing [65.78881372074983]
IoTデバイスは複雑なディープニューラルネットワーク(DNN)モデルにはほとんど余裕がなく、異常検出タスクをクラウドにオフロードすることは長い遅延を引き起こす。
本稿では,分散階層エッジコンピューティング(HEC)システムを対象とした適応型異常検出手法のデモと構築を行う。
提案手法は,検出タスクをクラウドにオフロードした場合と比較して,精度を犠牲にすることなく検出遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2020-04-15T06:13:33Z) - Do We Really Need to Access the Source Data? Source Hypothesis Transfer
for Unsupervised Domain Adaptation [102.67010690592011]
Unsupervised adaptUDA (UDA) は、ラベル付きソースデータセットから学んだ知識を活用して、新しいラベル付きドメインで同様のタスクを解決することを目的としている。
従来のUDAメソッドは、モデルに適応するためには、通常、ソースデータにアクセスする必要がある。
この作業は、訓練済みのソースモデルのみが利用できる実践的な環境に取り組み、ソースデータなしでそのようなモデルを効果的に活用してUDA問題を解決する方法に取り組みます。
論文 参考訳(メタデータ) (2020-02-20T03:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。