論文の概要: Robust Object Detection with Pseudo Labels from VLMs using Per-Object Co-teaching
- arxiv url: http://arxiv.org/abs/2511.09955v1
- Date: Fri, 14 Nov 2025 01:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.603512
- Title: Robust Object Detection with Pseudo Labels from VLMs using Per-Object Co-teaching
- Title(参考訳): Per-Object Co-Teaching を用いたVLMからの擬似ラベルによるロバスト物体検出
- Authors: Uday Bhaskar, Rishabh Bhattacharya, Avinash Patel, Sarthak Khoche, Praveen Anil Kulkarni, Naresh Manwani,
- Abstract要約: この研究は、効率的でリアルタイムな物体検出器を訓練するための擬似ラベルを自動的に生成する新しいパイプラインを導入している。
私たちの重要な革新は、VLM生成ラベルに固有のノイズを緩和する、オブジェクトごとのコティーチングベースのトレーニング戦略です。
全体として、私たちのパイプラインは、自律運転のための高性能物体検出器を訓練するための、効率的で堅牢でスケーラブルなアプローチを提供します。
- 参考スコア(独自算出の注目度): 1.53934570513443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models, especially vision-language models (VLMs), offer compelling zero-shot object detection for applications like autonomous driving, a domain where manual labelling is prohibitively expensive. However, their detection latency and tendency to hallucinate predictions render them unsuitable for direct deployment. This work introduces a novel pipeline that addresses this challenge by leveraging VLMs to automatically generate pseudo-labels for training efficient, real-time object detectors. Our key innovation is a per-object co-teaching-based training strategy that mitigates the inherent noise in VLM-generated labels. The proposed per-object coteaching approach filters noisy bounding boxes from training instead of filtering the entire image. Specifically, two YOLO models learn collaboratively, filtering out unreliable boxes from each mini-batch based on their peers' per-object loss values. Overall, our pipeline provides an efficient, robust, and scalable approach to train high-performance object detectors for autonomous driving, significantly reducing reliance on costly human annotation. Experimental results on the KITTI dataset demonstrate that our method outperforms a baseline YOLOv5m model, achieving a significant mAP@0.5 boost ($31.12\%$ to $46.61\%$) while maintaining real-time detection latency. Furthermore, we show that supplementing our pseudo-labelled data with a small fraction of ground truth labels ($10\%$) leads to further performance gains, reaching $57.97\%$ mAP@0.5 on the KITTI dataset. We observe similar performance improvements for the ACDC and BDD100k datasets.
- Abstract(参考訳): ファンデーションモデル、特に視覚言語モデル(VLM)は、手動ラベリングが違法に高価なドメインである自動運転のようなアプリケーションに対して、魅力的なゼロショットオブジェクト検出を提供する。
しかし、検出のレイテンシと予測を幻覚させる傾向があるため、直接デプロイには適さない。
この研究は、VLMを利用して効率よくリアルタイムな物体検出装置を訓練するために擬似ラベルを自動的に生成することで、この問題に対処する新しいパイプラインを導入する。
私たちの重要な革新は、VLM生成ラベルに固有のノイズを緩和する、オブジェクトごとのコティーチングベースのトレーニング戦略です。
提案したオブジェクトごとのコティーチングアプローチは、画像全体をフィルタリングする代わりに、ノイズの多い境界ボックスをトレーニングからフィルタリングする。
具体的には、2つのYOLOモデルが協調して学習し、各ミニバッチから各オブジェクトごとの損失値に基づいて信頼できないボックスをフィルタリングする。
全体として、当社のパイプラインは、自動運転車のための高性能物体検出装置を訓練するための、効率的で堅牢でスケーラブルなアプローチを提供しています。
KITTIデータセットの実験結果から,本手法はベースラインのYOLOv5mモデルよりも優れており,リアルタイム検出遅延を維持しながら,mAP@0.5の大幅なアップ(31.12\%から46.61\%)を達成した。
さらに,擬似ラベル付きデータを少量の真理ラベル(10\%$)で補うことで,さらにパフォーマンスが向上し,KITTIデータセットでは57.97\%$ mAP@0.5となった。
我々は、ACDCとBDD100kデータセットの同様のパフォーマンス改善を観察する。
関連論文リスト
- Streamlining the Development of Active Learning Methods in Real-World Object Detection [4.197402763771375]
実世界のオブジェクト検出のためのアクティブな学習は、実用的なデプロイメントを制限する計算と信頼性の課題に直面します。
これらの課題に対処する指標であるオブジェクトベースのセット類似性(mathrmOSS$)を紹介します。
この研究は、オブジェクト類似性に基づいたオブジェクト検出におけるALトレーニングと評価戦略を統合する最初のものである。
論文 参考訳(メタデータ) (2025-08-27T14:10:16Z) - Robust and Label-Efficient Deep Waste Detection [29.019461511410515]
効率的な廃棄物のソートは持続可能なリサイクルには不可欠だが、この領域でのAI研究は商用システムに遅れを取っている。
本研究では,強力なベースラインを確立し,アンサンブルに基づく半教師付き学習フレームワークを導入することにより,AI駆動型廃棄物検出を推し進める。
論文 参考訳(メタデータ) (2025-08-26T08:34:04Z) - De-Simplifying Pseudo Labels to Enhancing Domain Adaptive Object Detection [33.07404672485466]
本研究では, 自己ラベル検出器がドメインアライメント法で複合性能を達成するのを防ぐ限界について検討する。
そこで我々は,この問題を緩和するために,De-Simplifying Pseudo Labels (DeSimPL) という新しい手法を提案する。
実験結果から,DeSimPLはトレーニング中の単純試料の割合を効果的に低減し,自己標識検出器の性能向上を図った。
論文 参考訳(メタデータ) (2025-07-01T09:40:27Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Noisy Test-Time Adaptation in Vision-Language Models [73.14136220844156]
テスト時間適応(TTA)は、テスト中のターゲットデータのみに依存することにより、ソースデータとターゲットデータの分散シフトに対処することを目的としている。
本稿では、ゼロショット方式で、テスト時にノイズのあるサンプルをターゲットとするデータにモデルを適応させることに焦点を当てたゼロショットノイズTTA(ZS-NTTA)を提案する。
本稿では, 冷凍機の出力を擬似ラベルとして利用し, ノイズ検出器の訓練を行う適応ノイズ検出器(AdaND)を提案する。
論文 参考訳(メタデータ) (2025-02-20T14:37:53Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Value function estimation using conditional diffusion models for control [62.27184818047923]
拡散値関数(DVF)と呼ばれる単純なアルゴリズムを提案する。
拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶ。
本稿では,DVFを用いて複数のコントローラの状態を効率よく把握する方法を示す。
論文 参考訳(メタデータ) (2023-06-09T18:40:55Z) - Robust Few-shot Learning Without Using any Adversarial Samples [19.34427461937382]
高度なメタラーニング技術を用いて、数発の問題をロバストネスの目的と組み合わせる試みがいくつかなされている。
逆のサンプルを一切必要としない単純で効果的な代替案を提案する。
ヒトの認知的意思決定プロセスにインスパイアされ、ベースクラスデータとそれに対応する低周波サンプルの高レベル特徴マッチングを強制する。
論文 参考訳(メタデータ) (2022-11-03T05:58:26Z) - Attentive Prototypes for Source-free Unsupervised Domain Adaptive 3D
Object Detection [85.11649974840758]
3Dオブジェクト検出ネットワークは、トレーニングされたデータに対してバイアスを受ける傾向がある。
そこで本研究では,ライダーを用いた3次元物体検出器のソースレス・教師なし領域適応のための単一フレーム手法を提案する。
論文 参考訳(メタデータ) (2021-11-30T18:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。