論文の概要: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training
- arxiv url: http://arxiv.org/abs/2407.09174v1
- Date: Fri, 12 Jul 2024 11:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-15 23:47:49.949579
- Title: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training
- Title(参考訳): DART: データ多様化,オープンボキャブラリバウンディングボックスアノテーション,擬似ラベルレビュー,モデルトレーニングを備えた自動エンドツーエンドオブジェクト検出パイプライン
- Authors: Chen Xin, Andreas Hartel, Enkelejda Kasneci,
- Abstract要約: 本稿では,オブジェクト検出のためのエンドツーエンド自動パイプラインであるDARTについて述べる。
DARTは、多様なシナリオに優れながら、人間のラベル付けと広範なデータ収集の必要性を排除する。
現在のDARTの実装により、平均精度(AP)は0.064から0.832に大幅に向上した。
- 参考スコア(独自算出の注目度): 8.705939889424558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Swift and accurate detection of specified objects is crucial for many industrial applications, such as safety monitoring on construction sites. However, traditional approaches rely heavily on arduous manual annotation and data collection, which struggle to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an automated end-to-end pipeline designed to streamline the entire workflow of an object detection application from data collection to model deployment. DART eliminates the need for human labeling and extensive data collection while excelling in diverse scenarios. It employs a subject-driven image generation module (DreamBooth with SDXL) for data diversification, followed by an annotation stage where open-vocabulary object detection (Grounding DINO) generates bounding box annotations for both generated and original images. These pseudo-labels are then reviewed by a large multimodal model (GPT-4o) to guarantee credibility before serving as ground truth to train real-time object detectors (YOLO). We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current implementation of DART significantly increases average precision (AP) from 0.064 to 0.832. Furthermore, we adopt a modular design for DART to ensure easy exchangeability and extensibility. This allows for a smooth transition to more advanced algorithms in the future, seamless integration of new object categories without manual labeling, and adaptability to customized environments without extra data collection. The code and dataset are released at https://github.com/chen-xin-94/DART.
- Abstract(参考訳): スウィフトと指定されたオブジェクトの正確な検出は、建設現場の安全監視など、多くの産業アプリケーションにとって不可欠である。
しかし、従来のアプローチは、常に変化する環境や新しいターゲットオブジェクトに適応するのに苦労する、厳しい手動のアノテーションとデータ収集に大きく依存している。
これらの制約に対処するため、DARTはオブジェクト検出アプリケーションのワークフロー全体をデータ収集からモデル展開に合理化するために設計されたエンドツーエンドパイプラインである。
DARTは、多様なシナリオに優れながら、人間のラベル付けと広範なデータ収集の必要性を排除する。
データ多様化にはDreamBooth(SDXL付きDreamBooth)の画像生成モジュールを使用し、続いてオープン語彙オブジェクト検出(DINO周辺)が生成された画像とオリジナル画像の両方のバウンディングボックスアノテーションを生成するアノテーションステージを使用する。
これらの擬似ラベルは大規模マルチモーダルモデル (GPT-4o) によってレビューされ、リアルタイム物体検出器 (YOLO) を訓練するための基礎的な真実として機能する前に信頼性を保証する。
我々はDARTを、23のカテゴリにまたがる15K以上の高品質な画像を含む、Leebherr Productという名前の自己コンパイルされた建設機械のデータセットに適用する。
現在のDARTの実装により、平均精度(AP)は0.064から0.832に大幅に向上した。
さらに,DARTのモジュール設計を採用し,交換性と拡張性を確保する。
これにより、将来的にはより高度なアルゴリズムへのスムーズな移行、手動ラベリングなしで新しいオブジェクトカテゴリのシームレスな統合、余分なデータ収集なしでカスタマイズされた環境への適応性が可能になる。
コードとデータセットはhttps://github.com/chen-xin-94/DARTで公開されている。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Automated Multimodal Data Annotation via Calibration With Indoor
Positioning System [0.0]
本手法では,室内位置決めシステム(IPS)を用いて,点雲と画像の両方の正確な検出ラベルを生成する。
実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-12-06T16:54:24Z) - 2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic
Segmentation on Point Cloud [0.0]
これまでの研究を継承して、上記の課題を伴わずにマルチモダリティから情報を融合するだけでなく、RGBモダリティの情報を排出する。
提案手法は, モデルエンコーダにバウンディングボックスの事前情報を送信し, モダリティデータと融合した大規模マルチモーダリティモデルの実現可能性を示すものである。
論文 参考訳(メタデータ) (2023-09-21T03:32:22Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - Automatic Bounding Box Annotation with Small Training Data Sets for
Industrial Manufacturing [0.0]
本稿では,自動バウンディングボックスアノテーションのタスクに対して,最先端のオブジェクト検出手法を適用する方法について論じる。
未知の物体を、少量のトレーニングデータのみを用いて、複雑だが均質な背景から区別するように訓練できることが示される。
論文 参考訳(メタデータ) (2022-06-01T07:32:32Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。