Fugu-MT 論文翻訳(概要): DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training

論文の概要: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training

arxiv url: http://arxiv.org/abs/2407.09174v3
Date: Mon, 29 Jul 2024 09:14:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-30 20:51:41.947509
Title: DART: An Automated End-to-End Object Detection Pipeline with Data Diversification, Open-Vocabulary Bounding Box Annotation, Pseudo-Label Review, and Model Training
Title（参考訳）: DART: データ多様化,オープンボキャブラリバウンディングボックスアノテーション,擬似ラベルレビュー,モデルトレーニングを備えた自動エンドツーエンドオブジェクト検出パイプライン
Authors: Chen Xin, Andreas Hartel, Enkelejda Kasneci,
Abstract要約: 本稿では,データ収集からモデル評価へのオブジェクト検出に革命をもたらす自動エンドツーエンドパイプラインであるDARTを提案する。これにより、人間のラベル付けや広範なデータ収集の必要性を排除し、多様なシナリオにまたがって優れた精度を達成できる。 DARTの現在のインスタンス化は平均精度(AP)を0.064から0.832に大幅に向上させた。
参考スコア（独自算出の注目度）: 8.705939889424558
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate real-time object detection is vital across numerous industrial applications, from safety monitoring to quality control. Traditional approaches, however, are hindered by arduous manual annotation and data collection, struggling to adapt to ever-changing environments and novel target objects. To address these limitations, this paper presents DART, an innovative automated end-to-end pipeline that revolutionizes object detection workflows from data collection to model evaluation. It eliminates the need for laborious human labeling and extensive data collection while achieving outstanding accuracy across diverse scenarios. DART encompasses four key stages: (1) Data Diversification using subject-driven image generation (DreamBooth with SDXL), (2) Annotation via open-vocabulary object detection (Grounding DINO) to generate bounding box and class labels, (3) Review of generated images and pseudo-labels by large multimodal models (InternVL-1.5 and GPT-4o) to guarantee credibility, and (4) Training of real-time object detectors (YOLOv8 and YOLOv10) using the verified data. We apply DART to a self-collected dataset of construction machines named Liebherr Product, which contains over 15K high-quality images across 23 categories. The current instantiation of DART significantly increases average precision (AP) from 0.064 to 0.832. Its modular design ensures easy exchangeability and extensibility, allowing for future algorithm upgrades, seamless integration of new object categories, and adaptability to customized environments without manual labeling and additional data collection. The code and dataset are released at https://github.com/chen-xin-94/DART.
Abstract（参考訳）: 正確なリアルタイム物体検出は、安全監視から品質管理まで、多くの産業アプリケーションにおいて不可欠である。しかし、従来のアプローチは手動のアノテーションやデータ収集によって妨げられ、絶えず変化する環境や新しいターゲットオブジェクトに適応するのに苦労している。本稿では,データ収集からモデル評価に至るまでのオブジェクト検出ワークフローに革命をもたらす,革新的なエンドツーエンドパイプラインであるDARTを提案する。多様なシナリオにまたがって優れた精度を達成しつつ、人間のラベル付けや広範なデータ収集の必要性を排除します。 DARTは,(1)対象駆動画像生成(SDXLを用いたDreamBooth)を用いたデータ多様化,(2)オープン語彙オブジェクト検出(DINO)によるアノテーションによるバウンディングボックスとクラスラベルの生成,(3)大規模マルチモーダルモデル(InternVL-1.5およびGPT-4o)による生成画像と擬似ラベルのレビュー,(4)検証データを用いたリアルタイムオブジェクト検出(YOLOv8およびYOLOv10)のトレーニング,の4段階を含む。我々はDARTを、23のカテゴリにまたがる15K以上の高品質な画像を含む、Leebherr Productという名前の自己コンパイルされた建設機械のデータセットに適用する。 DARTの現在のインスタンス化は平均精度(AP)を0.064から0.832に大幅に向上させた。モジュール化された設計は、交換性と拡張性を容易にし、将来のアルゴリズムのアップグレード、新しいオブジェクトカテゴリのシームレスな統合、手作業によるラベル付けや追加データ収集なしにカスタマイズされた環境への適応性を実現する。コードとデータセットはhttps://github.com/chen-xin-94/DARTで公開されている。

関連論文リスト

SAM2Auto: Auto Annotation Using FLASH [13.638155035372835]
VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。 SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
論文参考訳（メタデータ） (2025-06-09T15:15:15Z)
Learning to Detect Objects from Multi-Agent LiDAR Scans without Manual Labels [40.571133087275406]
エージェント間で補完的な観察を共有するマルチエージェント協調データセットは、このボトルネックを突破する可能性を秘めている。外部からのラベルを使わずに、DOtAと呼ばれるマルチエージェントLiDARスキャンからオブジェクトを検出する新しい教師なし手法を提案する。 DOtAはエージェント間の補完的な観察を使用して、プリミティブラベルのマルチスケールエンコーディングを行い、高品質で低品質なラベルをデコードする。
論文参考訳（メタデータ） (2025-03-11T13:34:35Z)
Exploiting Unlabeled Data with Multiple Expert Teachers for Open Vocabulary Aerial Object Detection and Its Orientation Adaptation [58.37525311718006]
OVAD(Open-vocabulary Aero Object Detection)という,航空物体検出問題の新しい定式化を行った。本稿では,CLIP-activated students-Teacher DetectionフレームワークであるCastDetを提案する。本フレームワークは,ロバストなローカライズ教師といくつかのボックス選択戦略を統合し,新しいオブジェクトの高品質な提案を生成する。
論文参考訳（メタデータ） (2024-11-04T12:59:13Z)
Bayesian Detector Combination for Object Detection with Crowdsourced Annotations [49.43709660948812]
制約のない画像できめ細かなオブジェクト検出アノテーションを取得するのは、時間がかかり、コストがかかり、ノイズに悩まされる。ノイズの多いクラウドソースアノテーションでオブジェクト検出をより効果的に訓練するための新しいベイズ検出結合(BDC)フレームワークを提案する。 BDCはモデルに依存しず、アノテータのスキルレベルに関する事前の知識を必要とせず、既存のオブジェクト検出モデルとシームレスに統合される。
論文参考訳（メタデータ） (2024-07-10T18:00:54Z)
SOOD++: Leveraging Unlabeled Data to Boost Oriented Object Detection [59.868772767818975]
本稿では,SOOD++ と呼ばれる簡易かつ効果的な半教師付きオブジェクト指向検出手法を提案する。具体的には、空中画像からの物体は、通常任意の向き、小さなスケール、集約である。様々なラベル付き環境下での多目的オブジェクトデータセットに対する大規模な実験により,本手法の有効性が示された。
論文参考訳（メタデータ） (2024-07-01T07:03:51Z)
Dual-Perspective Knowledge Enrichment for Semi-Supervised 3D Object Detection [55.210991151015534]
本稿では, DPKE という新しい2次元知識豊か化手法を提案する。我々のDPKEは、データパースペクティブと機能パースペクティブという2つの観点から、限られたトレーニングデータ、特にラベルなしデータの知識を豊かにしています。
論文参考訳（メタデータ） (2024-01-10T08:56:07Z)
Automated Multimodal Data Annotation via Calibration With Indoor Positioning System [0.0]
本手法では,室内位置決めシステム(IPS)を用いて,点雲と画像の両方の正確な検出ラベルを生成する。実験では、システムは人間のベースラインの261.8倍の速さで関心のあるオブジェクトに注釈を付ける。
論文参考訳（メタデータ） (2023-12-06T16:54:24Z)
2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic Segmentation on Point Cloud [0.0]
これまでの研究を継承して、上記の課題を伴わずにマルチモダリティから情報を融合するだけでなく、RGBモダリティの情報を排出する。提案手法は, モデルエンコーダにバウンディングボックスの事前情報を送信し, モダリティデータと融合した大規模マルチモーダリティモデルの実現可能性を示すものである。
論文参考訳（メタデータ） (2023-09-21T03:32:22Z)
Object-Centric Multiple Object Tracking [124.30650395969126]
本稿では,多目的追跡パイプラインのためのビデオオブジェクト中心モデルを提案する。オブジェクト中心のスロットを検出出力に適応するインデックスマージモジュールと、オブジェクトメモリモジュールで構成される。オブジェクト中心学習に特化して、オブジェクトのローカライゼーションと機能バインディングのためのスパース検出ラベルしか必要としない。
論文参考訳（メタデータ） (2023-09-01T03:34:12Z)
Scaling Novel Object Detection with Weakly Supervised Detection Transformers [21.219817483091166]
Weakly Supervised Detection Transformerを提案する。これは大規模な事前学習データセットからWSODファインタニングへの効率的な知識伝達を可能にする。提案手法は, 大規模オブジェクト検出データセットにおいて, 従来の最先端モデルよりも優れていることを示す。
論文参考訳（メタデータ） (2022-07-11T21:45:54Z)
Automatic Bounding Box Annotation with Small Training Data Sets for Industrial Manufacturing [0.0]
本稿では,自動バウンディングボックスアノテーションのタスクに対して,最先端のオブジェクト検出手法を適用する方法について論じる。未知の物体を、少量のトレーニングデータのみを用いて、複雑だが均質な背景から区別するように訓練できることが示される。
論文参考訳（メタデータ） (2022-06-01T07:32:32Z)
EHSOD: CAM-Guided End-to-end Hybrid-Supervised Object Detection with Cascade Refinement [53.69674636044927]
本稿では,エンド・ツー・エンドのハイブリッド型オブジェクト検出システムであるEHSODについて述べる。完全なアノテートと弱いアノテートの両方で、ワンショットでトレーニングすることができる。完全なアノテートされたデータの30%しか持たない複数のオブジェクト検出ベンチマークで、同等の結果が得られる。
論文参考訳（メタデータ） (2020-02-18T08:04:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。