論文の概要: Improving 3D Labeling in Self-Driving by Inferring Vehicle Information using Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.21747v1
- Date: Wed, 20 May 2026 21:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.997491
- Title: Improving 3D Labeling in Self-Driving by Inferring Vehicle Information using Vision Language Models
- Title(参考訳): 視覚言語モデルを用いた車両情報推定による自動運転における3次元ラベリングの改善
- Authors: Steven Chen, Shivesh Khaitan, Nemanja Djuric,
- Abstract要約: 本稿では,車両情報のゼロショット推論により,自動運転車における3次元ラベリングを改善する手法を提案する。
提案手法はヴィジュアル言語モデル (VLM) を用いて, 画像から車両の製作, モデル, 生成を推定し, 正確な3次元境界ボックス次元を出力し, シード手動ラベリングを行う。
- 参考スコア(独自算出の注目度): 5.206744630858425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to improve 3D vehicle labeling in self-driving applications through zero-shot inference of vehicle information, leveraging Vehicle Make and Model Recognition (VMMR) methods. The proposed approach utilizes a Vision Language Model (VLM) to both infer a vehicle's make, model, and generation from image crops, and output accurate 3D bounding box dimensions to seed manual labeling. We evaluate the impact of iterative prompt engineering and the choice of different VLMs on both vehicle bounding box inference and make/model/generation recognition. When compared to strong baselines, the proposed approach not only shows high accuracy, but also excels in mitigating specific failure modes where VLMs provide better dimensions than initial lidar-aided human annotated labels (e.g., in cases of significant vehicle occlusion). Experiments on both public and proprietary data strongly suggest that our conclusions are generalizable across different labelers and datasets. The results demonstrate that integrating VLMs into the labeling process can reduce manual labeling time while increasing label quality.
- Abstract(参考訳): 本稿では,車載情報のゼロショット推論により,自動運転車における3次元ラベリングを改善する手法を提案する。
提案手法はヴィジュアル言語モデル (VLM) を用いて, 画像から車両の製作, モデル, 生成を推定し, 正確な3次元境界ボックス次元を出力し, シード手動ラベリングを行う。
車両境界ボックス推論と製造/モデル/世代認識の両方において,反復的プロンプトエンジニアリングと異なるVLMの選択が与える影響を評価した。
強力なベースラインと比較した場合,提案手法は高い精度を示すだけでなく,VLMが初期のライダー支援ヒトのアノテートラベル(例えば車両閉塞の場合)よりも優れた寸法を提供する特定の故障モードの緩和にも優れている。
公開データとプロプライエタリデータの両方の実験は、我々の結論がさまざまなラベルやデータセットで一般化可能であることを強く示唆している。
その結果,VLMをラベル付けプロセスに統合することで,ラベルの品質を高めつつ,手作業によるラベル付け時間を短縮できることがわかった。
関連論文リスト
- Spatial-aware Vision Language Model for Autonomous Driving [16.149511148218497]
VLM(Vision-Language Models)は、言語モデルに埋め込まれた共通感覚を活用することで、エンドツーエンドの自動運転に重要な可能性を示している。
現在の画像ベース手法は、正確な空間的推論と幾何学的推論に苦しむため、信頼性の低い運転ポリシーが導かれる。
LVLDriveは、自律運転のための堅牢な3次元空間理解により既存のVLMをアップグレードするように設計された新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-30T16:35:00Z) - Mapillary Vistas Validation for Fine-Grained Traffic Signs: A Benchmark Revealing Vision-Language Model Limitations [5.159407277301709]
Mapillary Vistas Validation for Traffic Signs (MVV) と呼ばれるMapillaryデータセットから得られた交通信号に対する新しい検証セットを提案する。
データセットにはピクセルレベルのインスタンスマスクが含まれており、専門家アノテータによって手動でアノテートされ、ラベルの忠実さが保証されている。
我々は、このデータセット上の自己教師型DINOv2モデルに対して、最先端のVLMをベンチマークし、DINOv2が全てのVLMベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2025-08-04T04:29:06Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2025-04-06T03:54:21Z) - Empowering Large Language Models with 3D Situation Awareness [84.12071023036636]
3Dと2Dの主な違いは、3Dシーンにおける自我中心のオブザーバーの状況が変化し、異なる記述をもたらすことである。
本研究では,データ収集時の走査軌道を利用して状況認識データセットを自動的に生成する手法を提案する。
本研究では,観測者の視点の位置と方向を明示的に予測する状況接地モジュールを導入し,LLMが3次元シーンで状況記述をグラウンド化できるようにする。
論文 参考訳(メタデータ) (2025-03-29T09:34:16Z) - OmniDrive: A Holistic Vision-Language Dataset for Autonomous Driving with Counterfactual Reasoning [68.45848423501927]
本稿では,エージェントモデルと3次元駆動タスクを対応づける総合的視覚言語データセットを提案する。
提案手法は,代替行動を検討する人間ドライバーと同様,潜在的なシナリオとその成果を評価することによって意思決定を促進する。
論文 参考訳(メタデータ) (2024-05-02T17:59:24Z) - AIDE: An Automatic Data Engine for Object Detection in Autonomous Driving [68.73885845181242]
本稿では,問題を自動的に識別し,データを効率よくキュレートし,自動ラベル付けによりモデルを改善する自動データエンジン(AIDE)を提案する。
さらに,AVデータセットのオープンワールド検出のためのベンチマークを構築し,様々な学習パラダイムを包括的に評価し,提案手法の優れた性能を低コストで実証する。
論文 参考訳(メタデータ) (2024-03-26T04:27:56Z) - Unsupervised 3D Perception with 2D Vision-Language Distillation for
Autonomous Driving [39.70689418558153]
本研究では,3次元ラベルを使わずに,オープンなカテゴリのモデルにアモーダルな3次元境界ボックスとトラックレットを生成できるマルチモーダル自動ラベルパイプラインを提案する。
私たちのパイプラインは、ポイントクラウドシーケンスに固有のモーションキューと、利用可能な2Dイメージテキストペアを組み合わせて、すべてのトラフィック参加者を特定し、追跡します。
論文 参考訳(メタデータ) (2023-09-25T19:33:52Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。