論文の概要: AutoVDC: Automated Vision Data Cleaning Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2507.12414v1
- Date: Wed, 16 Jul 2025 17:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.481344
- Title: AutoVDC: Automated Vision Data Cleaning Using Vision-Language Models
- Title(参考訳): AutoVDC:視覚言語モデルを用いた視覚データクリーニング
- Authors: Santosh Vasa, Aditi Ramadwar, Jnana Rama Krishna Darabattula, Md Zafar Anwar, Stanislaw Antol, Andrei Vatavu, Thomas Monninger, Sihao Ding,
- Abstract要約: 本稿では,視覚データセット内の誤アノテーションを自動的に識別するAutoVDC(Automated Vision Data Cleaning)フレームワークを紹介する。
我々は、自律運転のためのオブジェクト検出ベンチマークを含むKITTIとnuImagesデータセットを用いて、我々のアプローチを検証する。
その結果, 誤差検出およびデータクリーニング実験において, 提案手法の高性能性を実証した。
- 参考スコア(独自算出の注目度): 1.3413568970600038
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training of autonomous driving systems requires extensive datasets with precise annotations to attain robust performance. Human annotations suffer from imperfections, and multiple iterations are often needed to produce high-quality datasets. However, manually reviewing large datasets is laborious and expensive. In this paper, we introduce AutoVDC (Automated Vision Data Cleaning) framework and investigate the utilization of Vision-Language Models (VLMs) to automatically identify erroneous annotations in vision datasets, thereby enabling users to eliminate these errors and enhance data quality. We validate our approach using the KITTI and nuImages datasets, which contain object detection benchmarks for autonomous driving. To test the effectiveness of AutoVDC, we create dataset variants with intentionally injected erroneous annotations and observe the error detection rate of our approach. Additionally, we compare the detection rates using different VLMs and explore the impact of VLM fine-tuning on our pipeline. The results demonstrate our method's high performance in error detection and data cleaning experiments, indicating its potential to significantly improve the reliability and accuracy of large-scale production datasets in autonomous driving.
- Abstract(参考訳): 自律運転システムのトレーニングには、堅牢なパフォーマンスを達成するために、正確なアノテーションを備えた広範なデータセットが必要である。
人間のアノテーションは不完全性に悩まされ、高品質なデータセットを生成するために複数のイテレーションが必要になることが多い。
しかし、大規模なデータセットを手動でレビューするのは面倒でコストがかかる。
本稿では,AutoVDC(Automated Vision Data Cleaning)フレームワークを導入し,視覚データセットの誤アノテーションを自動的に識別する視覚言語モデル(VLM)の利用について検討する。
我々は、自律運転のためのオブジェクト検出ベンチマークを含むKITTIとnuImagesデータセットを用いて、我々のアプローチを検証する。
AutoVDCの有効性をテストするために,意図的な誤ったアノテーションを注入したデータセットの変種を作成し,提案手法の誤り検出率を観察する。
さらに、異なるVLMを用いた検出率を比較し、VLMの微調整がパイプラインに与える影響について検討する。
その結果,自動走行における大規模生産データセットの信頼性と精度を大幅に向上させる可能性が示唆された。
関連論文リスト
- SAM2Auto: Auto Annotation Using FLASH [13.638155035372835]
VLM(Vision-Language Models)は、注釈付きデータセットの不足により、大規模言語モデルに遅れている。
SAM2Autoは、人間の介入やデータセット固有のトレーニングを必要としないビデオデータセットのための、最初の完全に自動化されたアノテーションパイプラインである。
本システムでは, 検出誤差を最小限に抑えつつ, ビデオシーケンス全体にわたって一貫した物体追跡を確実にするため, 統計的手法を用いている。
論文 参考訳(メタデータ) (2025-06-09T15:15:15Z) - Debiased Prompt Tuning in Vision-Language Model without Annotations [14.811475313694041]
VLM(Vision-Language Models)は、素早い相関の問題に悩まされる可能性がある。
擬似純粋属性アノテーションを利用することで,異なるグループのトレーニング重みを自動調整する手法を提案する。
提案手法は,CelebA,Waterbirds,MetaShiftのデータセットにおける最悪のグループ精度を効率的に向上する。
論文 参考訳(メタデータ) (2025-03-11T12:24:54Z) - Scenario Understanding of Traffic Scenes Through Large Visual Language Models [2.3302708486956454]
大規模ビジュアル言語モデル(LVLM)は、画像解析とコンテキストクエリによる分類を自動化することで、魅力的なソリューションを提供する。
本研究では,LVLMが社内データセットとBDD100Kの両方で都市交通シーンを理解し,分類する能力を評価する。
我々は、最先端モデルを統合するスケーラブルなキャプションパイプラインを提案し、新しいデータセットに柔軟なデプロイを可能にする。
論文 参考訳(メタデータ) (2025-01-28T18:23:12Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Intrinsic Self-Supervision for Data Quality Audits [35.69673085324971]
コンピュータビジョンにおけるベンチマークデータセットは、しばしば、オフトピック画像、ほぼ重複、ラベルエラーを含む。
本稿では,データクリーニングの課題を再考し,ランキング問題やスコアリング問題として定式化する。
文脈認識型自己教師型表現学習と距離に基づく指標の組み合わせは, 適応バイアスのない問題発見に有効であることがわかった。
論文 参考訳(メタデータ) (2023-05-26T15:57:04Z) - Cluster-level pseudo-labelling for source-free cross-domain facial
expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。
本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。
提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T08:24:50Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - One Million Scenes for Autonomous Driving: ONCE Dataset [91.94189514073354]
自律運転シナリオにおける3次元物体検出のためのONCEデータセットを提案する。
データは、利用可能な最大の3D自動運転データセットよりも20倍長い144時間の運転時間から選択される。
我々はONCEデータセット上で、様々な自己教師的・半教師的手法を再現し、評価する。
論文 参考訳(メタデータ) (2021-06-21T12:28:08Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - SoDA: Multi-Object Tracking with Soft Data Association [75.39833486073597]
マルチオブジェクトトラッキング(MOT)は、自動運転車の安全な配備の前提条件である。
観測対象間の依存関係をエンコードするトラック埋め込みの計算に注目するMOTに対する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-18T03:40:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。