論文の概要: LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision
- arxiv url: http://arxiv.org/abs/2509.22631v1
- Date: Fri, 26 Sep 2025 17:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.630185
- Title: LABELING COPILOT: A Deep Research Agent for Automated Data Curation in Computer Vision
- Title(参考訳): LABEling COPILOT:コンピュータビジョンにおける自動データキュレーションのためのディープリサーチエージェント
- Authors: Debargha Ganguly, Sumit Kumar, Ishwar Balappanawar, Weicong Chen, Shashank Kambhatla, Srinivasan Iyengar, Shivkumar Kalyanaraman, Ponnurangam Kumaraguru, Vipin Chaudhary,
- Abstract要約: 本稿では,コンピュータビジョンのための初のデータキュレーションディープリサーチエージェントであるLabeling Copilotを紹介する。
大規模なマルチモーダル言語モデルを利用する中央オーケストレータエージェントは、多段階推論を使用して、3つのコア機能にまたがる特殊なツールを実行する。
- 参考スコア(独自算出の注目度): 13.437102865245285
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Curating high-quality, domain-specific datasets is a major bottleneck for deploying robust vision systems, requiring complex trade-offs between data quality, diversity, and cost when researching vast, unlabeled data lakes. We introduce Labeling Copilot, the first data curation deep research agent for computer vision. A central orchestrator agent, powered by a large multimodal language model, uses multi-step reasoning to execute specialized tools across three core capabilities: (1) Calibrated Discovery sources relevant, in-distribution data from large repositories; (2) Controllable Synthesis generates novel data for rare scenarios with robust filtering; and (3) Consensus Annotation produces accurate labels by orchestrating multiple foundation models via a novel consensus mechanism incorporating non-maximum suppression and voting. Our large-scale validation proves the effectiveness of Labeling Copilot's components. The Consensus Annotation module excels at object discovery: on the dense COCO dataset, it averages 14.2 candidate proposals per image-nearly double the 7.4 ground-truth objects-achieving a final annotation mAP of 37.1%. On the web-scale Open Images dataset, it navigated extreme class imbalance to discover 903 new bounding box categories, expanding its capability to over 1500 total. Concurrently, our Calibrated Discovery tool, tested at a 10-million sample scale, features an active learning strategy that is up to 40x more computationally efficient than alternatives with equivalent sample efficiency. These experiments validate that an agentic workflow with optimized, scalable tools provides a robust foundation for curating industrial-scale datasets.
- Abstract(参考訳): 高品質でドメイン固有のデータセットを計算することは、堅牢なビジョンシステムを展開する上で大きなボトルネックであり、巨大なラベルのないデータレイクを研究する際には、データ品質、多様性、コストの間の複雑なトレードオフが必要になる。
本稿では,コンピュータビジョンのための初のデータキュレーションディープリサーチエージェントであるLabeling Copilotを紹介する。
大規模マルチモーダル言語モデルを利用する中央オーケストレータエージェントは,(1)大規模リポジトリからの分散データに関連するキャリブレーションされた発見源,(2)ロバストなフィルタリングを伴う稀なシナリオのための新しいデータを生成する制御可能合成,(3)合意アノテーションは,複数の基盤モデルを,非最大抑制と投票を含む新しいコンセンサス機構によって,正確なラベルを生成する。
大規模な検証は、Copilotのコンポーネントのラベル付けの有効性を証明する。
Consensus Annotationモジュールはオブジェクト発見において優れており、密集したCOCOデータセットでは、画像あたりの14.2の候補提案が7.4のグランドトゥルースオブジェクトのほぼ倍になり、最終的なアノテーションmAPは37.1%である。
WebスケールのOpen Imagesデータセットでは、903の新しいバウンディングボックスカテゴリを見つけるために、極端なクラス不均衡をナビゲートし、その能力を合計1500以上まで拡張した。
同時に、私たちのCalibrated Discoveryツールは、1000万のサンプルスケールでテストされ、同等のサンプル効率を持つ代替品の最大40倍の計算効率を持つアクティブな学習戦略を特徴としています。
これらの実験は、最適化されたスケーラブルなツールを備えたエージェントワークフローが、産業規模のデータセットをキュレートするための堅牢な基盤を提供することを示す。
関連論文リスト
- OD3: Optimization-free Dataset Distillation for Object Detection [23.09565778268426]
本稿では,オブジェクト検出に特化して設計された新しい最適化フリーなデータ蒸留フレームワークOD3を紹介する。
提案手法は,まず,対象インスタンスを適切な位置に基づいて反復的に合成画像に配置する候補選択プロセスと,事前学習したオブザーバモデルを用いて,低信頼度オブジェクトを除去する候補スクリーニングプロセスの2段階を含む。
従来のデータセット蒸留法と従来のコアセット選択法を比較検討した結果,OD3 は精度が向上し,COCO mAP50 の圧縮比が14%以上向上し,新たな最先端結果が得られた。
論文 参考訳(メタデータ) (2025-06-02T17:56:02Z) - Plain-Det: A Plain Multi-Dataset Object Detector [22.848784430833835]
Plain-Detは、新しいデータセットに対応する柔軟性、さまざまなデータセットのパフォーマンス、トレーニング効率を提供する。
13の下流データセットに対して広範な実験を行い、Plain-Detは強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-07-14T05:18:06Z) - KECOR: Kernel Coding Rate Maximization for Active 3D Object Detection [48.66703222700795]
我々は、ラベルの取得に最も有用なポイントクラウドを特定するために、新しいカーネル戦略を利用する。
1段目(SECOND)と2段目(SECOND)の両方に対応するため、アノテーションに選択した境界ボックスの総数と検出性能のトレードオフをよく組み込んだ分類エントロピー接点を組み込んだ。
その結果,ボックスレベルのアノテーションのコストは約44%,計算時間は26%削減された。
論文 参考訳(メタデータ) (2023-07-16T04:27:03Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - Tiny Object Tracking: A Large-scale Dataset and A Baseline [40.93697515531104]
大規模なビデオデータセットを作成し、合計217Kフレームの434のシーケンスを含む。
データ作成において、幅広い視点とシーンの複雑さをカバーするため、12の課題属性を考慮に入れます。
統合されたフレームワークで3段階の知識蒸留を行うMKDNet(Multilevel Knowledge Distillation Network)を提案する。
論文 参考訳(メタデータ) (2022-02-11T15:00:32Z) - Label-Assemble: Leveraging Multiple Datasets with Partial Labels [68.46767639240564]
Label-Assemble”は、公開データセットのアセンブリから部分的なラベルの可能性を最大限に活用することを目的としている。
陰例からの学習は,コンピュータ支援型疾患の診断と検出の双方を促進することが判明した。
論文 参考訳(メタデータ) (2021-09-25T02:48:17Z) - Unsupervised Domain Adaptive Learning via Synthetic Data for Person
Re-identification [101.1886788396803]
人物再識別(re-ID)は、ビデオ監視に広く応用されているため、ますます注目を集めている。
残念なことに、主流のディープラーニング手法では、モデルをトレーニングするために大量のラベル付きデータが必要です。
本稿では,コンピュータゲーム内で合成されたre-IDサンプルを自動的に生成するデータコレクタを開発し,同時にアノテートするデータラベラを構築した。
論文 参考訳(メタデータ) (2021-09-12T15:51:41Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。