論文の概要: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training
- arxiv url: http://arxiv.org/abs/2407.09174v3
- Date: Mon, 29 Jul 2024 09:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 20:51:41.947509
- Title: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training
- Title(参考訳): DART: データ多様化,オープンボキャブラリバウンディングボックスアノテーション,擬似ラベルレビュー,モデルトレーニングを備えた自動エンドツーエンドオブジェクト検出パイプライン
- Authors: Chen Xin, Andreas Hartel, Enkelejda Kasneci,
- Abstract要約: 本稿では,データ収集からモデル評価へのオブジェクト検出に革命をもたらす自動エンドツーエンドパイプラインであるDARTを提案する。
これにより、人間のラベル付けや広範なデータ収集の必要性を排除し、多様なシナリオにまたがって優れた精度を達成できる。
DARTの現在のインスタンス化は平均精度(AP)を0.064から0.832に大幅に向上させた。
- 参考スコア(独自算出の注目度): 8.705939889424558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate real-time object detection is vital across numerous industrial applications, from safety monitoring to quality control. Traditional approaches, however, are hindered by arduous manual annotation and data collection, struggling to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an innovative automated end-to-end pipeline that revolutionizes object detection workflows from data collection to model evaluation. It eliminates the need for laborious human labeling and extensive data collection while achieving outstanding accuracy across diverse scenarios. DART encompasses four key stages: (1) Data Diversification using subject-driven image generation (DreamBooth with SDXL), (2) Annotation via open-vocabulary object detection (Grounding DINO) to generate bounding box and class labels, (3) Review of generated images and pseudo-labels by large multimodal models (InternVL-1.5 and GPT-4o) to guarantee credibility, and (4) Training of real-time object detectors (YOLOv8 and YOLOv10) using the verified data. We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current instantiation of DART significantly increases average precision (AP) from 0.064 to 0.832. Its modular design ensures easy exchangeability and extensibility, allowing for future algorithm upgrades, seamless integration of new object categories, and adaptability to customized environments without manual labeling and additional data collection. The code and dataset are released at https://github.com/chen-xin-94/DART.
- Abstract(参考訳): 正確なリアルタイム物体検出は、安全監視から品質管理まで、多くの産業アプリケーションにおいて不可欠である。
しかし、従来のアプローチは手動のアノテーションやデータ収集によって妨げられ、絶えず変化する環境や新しいターゲットオブジェクトに適応するのに苦労している。
本稿では,データ収集からモデル評価に至るまでのオブジェクト検出ワークフローに革命をもたらす,革新的なエンドツーエンドパイプラインであるDARTを提案する。
多様なシナリオにまたがって優れた精度を達成しつつ、人間のラベル付けや広範なデータ収集の必要性を排除します。
DARTは,(1)対象駆動画像生成(SDXLを用いたDreamBooth)を用いたデータ多様化,(2)オープン語彙オブジェクト検出(DINO)によるアノテーションによるバウンディングボックスとクラスラベルの生成,(3)大規模マルチモーダルモデル(InternVL-1.5およびGPT-4o)による生成画像と擬似ラベルのレビュー,(4)検証データを用いたリアルタイムオブジェクト検出(YOLOv8およびYOLOv10)のトレーニング,の4段階を含む。
我々はDARTを、23のカテゴリにまたがる15K以上の高品質な画像を含む、Leebherr Productという名前の自己コンパイルされた建設機械のデータセットに適用する。
DARTの現在のインスタンス化は平均精度(AP)を0.064から0.832に大幅に向上させた。
モジュール化された設計は、交換性と拡張性を容易にし、将来のアルゴリズムのアップグレード、新しいオブジェクトカテゴリのシームレスな統合、手作業によるラベル付けや追加データ収集なしにカスタマイズされた環境への適応性を実現する。
コードとデータセットはhttps://github.com/chen-xin-94/DARTで公開されている。
関連論文リスト
- Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object
Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。
我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文 参考訳(メタデータ) (2024-01-10T08:56:07Z) - Automated Multimodal Data Annotation via Calibration With Indoor
Positioning System [0.0]
本手法では,室内位置決めシステム(IPS)を用いて,点雲と画像の両方の正確な検出ラベルを生成する。
実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトに注釈を付ける。
論文 参考訳(メタデータ) (2023-12-06T16:54:24Z) - 2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic
Segmentation on Point Cloud [0.0]
これまでの研究を継承して、上記の課題を伴わずにマルチモダリティから情報を融合するだけでなく、RGBモダリティの情報を排出する。
提案手法は, モデルエンコーダにバウンディングボックスの事前情報を送信し, モダリティデータと融合した大規模マルチモーダリティモデルの実現可能性を示すものである。
論文 参考訳(メタデータ) (2023-09-21T03:32:22Z) - Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。
オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。
オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文 参考訳(メタデータ) (2023-09-01T03:34:12Z) - D2DF2WOD: Learning Object Proposals for Weakly-Supervised Object
Detection via Progressive Domain Adaptation [25.41133780678981]
D2DF2WODは完全な監視対象検出フレームワークである。
自然なイメージターゲットドメインを補うために、正確なオブジェクトローカライゼーションを付加した合成データを使用する。
提案手法は,最先端手法と比較してオブジェクト検出と局所化を一貫して改善する。
論文 参考訳(メタデータ) (2022-12-02T18:58:03Z) - Scaling Novel Object Detection with Weakly Supervised Detection
Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。
提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-07-11T21:45:54Z) - Omni-DETR: Omni-Supervised Object Detection with Transformers [165.4190908259015]
我々は、ラベルなし、完全ラベル付き、弱ラベル付きアノテーションを使用できるOmni教師付きオブジェクト検出の問題を考察する。
この統一アーキテクチャの下では、異なる種類の弱いラベルを利用して正確な擬似ラベルを生成することができる。
弱いアノテーションは検出性能を向上させるのに役立ち、それらの混合はアノテーションのコストと精度のトレードオフを改善することができる。
論文 参考訳(メタデータ) (2022-03-30T06:36:09Z) - End-to-end Deep Object Tracking with Circular Loss Function for Rotated
Bounding Box [68.8204255655161]
Transformer Multi-Head Attentionアーキテクチャに基づく新しいエンドツーエンドのディープラーニング手法を紹介します。
また,境界ボックスの重なりと向きを考慮に入れた新しいタイプの損失関数を提案する。
論文 参考訳(メタデータ) (2020-12-17T17:29:29Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with
Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。
完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。
完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文 参考訳(メタデータ) (2020-02-18T08:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。