論文の概要: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training
- arxiv url: http://arxiv.org/abs/2407.09174v2
- Date: Fri, 26 Jul 2024 11:01:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 17:32:36.737028
- Title: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training
- Title(参考訳): DART: データ多様化,オープンボキャブラリバウンディングボックスアノテーション,擬似ラベルレビュー,モデルトレーニングを備えた自動エンドツーエンドオブジェクト検出パイプライン
- Authors: Chen Xin, Andreas Hartel, Enkelejda Kasneci,
- Abstract要約: 本稿では,データ収集からモデル評価へのオブジェクト検出に革命をもたらす自動エンドツーエンドパイプラインであるDARTを提案する。
これにより、人間のラベル付けや広範なデータ収集の必要性を排除し、多様なシナリオにまたがって優れた精度を達成できる。
DARTを、23のカテゴリにまたがる15K以上の高品質な画像を含む、Liebherr Productという名の建設機械のデータセットに適用する。
- 参考スコア(独自算出の注目度): 8.705939889424558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate real-time object detection is vital across numerous industrial applications, from safety monitoring to quality control. Traditional approaches, however, are hindered by arduous manual annotation and data collection, struggling to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an innovative automated end-to-end pipeline that revolutionizes object detection workflows from data collection to model evaluation. It eliminates the need for laborious human labeling and extensive data collection while achieving outstanding accuracy across diverse scenarios. DART encompasses four key stages: (1) Data Diversification using subject-driven image generation (DreamBooth with SDXL), (2) Annotation via open-vocabulary object detection (Grounding DINO) to generate bounding box and class labels (3) Review of generated images and pseudo-labels by large multimodal models (InternVL-1.5 and GPT-4o) to guarantee credibility, (4) Training of real-time object detectors (YOLOv8 and YOLOv10) using the verified data as ground truth. We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current instantiation of DART significantly increases average precision (AP) from 0.064 to 0.832. Its modular design ensures easy exchangeability and extensibility, allowing for future algorithm upgrades, seamless integration of new object categories, and adaptability to customized environments without manual labeling and additional data collection. The code and dataset are released at https://github.com/chen-xin-94/DART.
- Abstract(参考訳): 正確なリアルタイム物体検出は、安全監視から品質管理まで、多くの産業アプリケーションにおいて不可欠である。
しかし、従来のアプローチは手動のアノテーションやデータ収集によって妨げられ、絶えず変化する環境や新しいターゲットオブジェクトに適応するのに苦労している。
本稿では,データ収集からモデル評価に至るまでのオブジェクト検出ワークフローに革命をもたらす,革新的なエンドツーエンドパイプラインであるDARTを提案する。
多様なシナリオにまたがって優れた精度を達成しつつ、人間のラベル付けや広範なデータ収集の必要性を排除します。
DARTは,(1)主観駆動画像生成(DreamBooth with SDXL),(2)オープン語彙オブジェクト検出(DINO)によるアノテーションによる境界ボックスとクラスラベルの生成,(3)大規模マルチモーダルモデル(InternVL-1.5, GPT-4o)による生成画像と擬似ラベルのレビュー,(4)実時間オブジェクト検出装置(YOLOv8, YOLOv10)のトレーニング,の4つの重要な段階を含む。
我々はDARTを、23のカテゴリにまたがる15K以上の高品質な画像を含む、Leebherr Productという名前の自己コンパイルされた建設機械のデータセットに適用する。
DARTの現在のインスタンス化は平均精度(AP)を0.064から0.832に大幅に向上させた。
モジュール化された設計は、交換性と拡張性を容易にし、将来のアルゴリズムのアップグレード、新しいオブジェクトカテゴリのシームレスな統合、手作業によるラベル付けや追加データ収集なしにカスタマイズされた環境への適応性を実現する。
コードとデータセットはhttps://github.com/chen-xin-94/DARTで公開されている。
関連論文リスト
- Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。
本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。
本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文 参考訳(メタデータ) (2024-11-04T12:59:13Z) - Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。
ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。
BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文 参考訳(メタデータ) (2024-07-10T18:00:54Z) - SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。
具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。
様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-07-01T07:03:51Z) - Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Automated Multimodal Data Annotation via Calibration With Indoor
Positioning System [0.0]
本手法では,室内位置決めシステム(IPS)を用いて,点雲と画像の両方の正確な検出ラベルを生成する。
実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-12-06T16:54:24Z) - 2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic
Segmentation on Point Cloud [0.0]
これまでの研究を継承して、上記の課題を伴わずにマルチモダリティから情報を融合するだけでなく、RGBモダリティの情報を排出する。
提案手法は, モデルエンコーダにバウンディングボックスの事前情報を送信し, モダリティデータと融合した大規模マルチモーダリティモデルの実現可能性を示すものである。
論文 参考訳(メタデータ) (2023-09-21T03:32:22Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - Automatic Bounding Box Annotation with Small Training Data Sets for
Industrial Manufacturing [0.0]
本稿では,自動バウンディングボックスアノテーションのタスクに対して,最先端のオブジェクト検出手法を適用する方法について論じる。
未知の物体を、少量のトレーニングデータのみを用いて、複雑だが均質な背景から区別するように訓練できることが示される。
論文 参考訳(メタデータ) (2022-06-01T07:32:32Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。