論文の概要: When the City Teaches the Car: Label-Free 3D Perception from Infrastructure
- arxiv url: http://arxiv.org/abs/2603.16742v1
- Date: Tue, 17 Mar 2026 16:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.412198
- Title: When the City Teaches the Car: Label-Free 3D Perception from Infrastructure
- Title(参考訳): 都市が車のティーチングを行うとき:インフラからのラベルなし3D認識
- Authors: Zhen Xu, Jinsu Yoo, Cristian Bautista, Zanming Huang, Tai-Yu Pan, Zhenzhen Liu, Katie Z Luo, Mark Campbell, Bharath Hariharan, Wei-Lun Chao,
- Abstract要約: 自動運転のための堅牢な3D認識の構築は、依然として大規模なデータ収集と手動のアノテーションに大きく依存している。
現代の都市は、道路サイドユニット(RSU)、道路に沿って配置された静的センサー、そして交通を監視するために交差点に配置されている。
本稿では,RSUがエゴ車両の教師なしの静止型教師として機能する,インフラストラクチャトレートでラベルのない3D知覚手法を提案する。
- 参考スコア(独自算出の注目度): 47.72611382185263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building robust 3D perception for self-driving still relies heavily on large-scale data collection and manual annotation, yet this paradigm becomes impractical as deployment expands across diverse cities and regions. Meanwhile, modern cities are increasingly instrumented with roadside units (RSUs), static sensors deployed along roads and at intersections to monitor traffic. This raises a natural question: can the city itself help train the vehicle? We propose infrastructure-taught, label-free 3D perception, a paradigm in which RSUs act as stationary, unsupervised teachers for ego vehicles. Leveraging their fixed viewpoints and repeated observations, RSUs learn local 3D detectors from unlabeled data and broadcast predictions to passing vehicles, which are aggregated as pseudo-label supervision for training a standalone ego detector. The resulting model requires no infrastructure or communication at test time. We instantiate this idea as a fully label-free three-stage pipeline and conduct a concept-and-feasibility study in a CARLA-based multi-agent environment. With CenterPoint, our pipeline achieves 82.3% AP for detecting vehicles, compared to a fully supervised ego upper bound of 94.4%. We further systematically analyze each stage, evaluate its scalability, and demonstrate complementarity with existing ego-centric label-free methods. Together, these results suggest that city infrastructure itself can potentially provide a scalable supervisory signal for autonomous vehicles, positioning infrastructure-taught learning as a promising orthogonal paradigm for reducing annotation cost in 3D perception.
- Abstract(参考訳): 自動運転のための堅牢な3D認識の構築は、いまだに大規模なデータ収集と手動アノテーションに大きく依存しているが、多様な都市や地域への展開が広がるにつれて、このパラダイムは非現実的になる。
一方、現代の都市では道路脇のユニット(RSU)や、道路に沿って配置された静的センサー、そして道路の交差点で交通を監視している。
都市自体が車両の訓練に役立てられるのか?
本稿では,RSUがエゴ車両の教師なしの静止型教師として機能する,インフラストラクチャトレートでラベルのない3D知覚手法を提案する。
固定された視点と観測を繰り返したRSUは、未ラベルのデータからローカルな3D検出器を学習し、通過する車両に放送する。
結果として得られるモデルは、テスト時にインフラストラクチャや通信を必要としない。
我々は、このアイデアを完全なラベルのない3段階パイプラインとしてインスタンス化し、CARLAベースのマルチエージェント環境で概念と実現可能性の研究を行う。
CenterPointでは、当社のパイプラインは車両検出において82.3%のAPを達成したが、完全に監督されたエゴ上限は94.4%であった。
さらに,各ステージを体系的に解析し,そのスケーラビリティを評価し,既存のエゴ中心のラベルフリー手法との相補性を実証する。
これらの結果は、都市インフラ自体が、自動運転車にスケーラブルな監視信号を提供する可能性を示唆し、インフラ学習を3D知覚におけるアノテーションコストを低減するための有望な直交パラダイムとして位置づけている。
関連論文リスト
- Inverse++: Vision-Centric 3D Semantic Occupancy Prediction Assisted with 3D Object Detection [11.33083039877258]
3次元セマンティック占有予測は、自動運転車の周囲環境の詳細な幾何学的・意味的な情報を予測することを目的としている。
追加の3次元物体検出補助分岐を組み込んだ3次元監視信号を導入する。
IoUスコアは31.73%、mIoUスコアは20.91%である。
論文 参考訳(メタデータ) (2025-04-07T05:08:22Z) - Unsupervised Adaptation from Repeated Traversals for Autonomous Driving [54.59577283226982]
自動運転車はエンドユーザー環境に一般化し、確実に動作させなければならない。
潜在的な解決策の1つは、エンドユーザの環境から収集されたラベルのないデータを活用することである。
適応過程を監督する信頼性のある信号はターゲット領域に存在しない。
この単純な仮定は、ターゲット領域上の3次元物体検出器の反復的自己学習を可能にする強力な信号を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-27T15:07:55Z) - HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for
Autonomous Driving [95.42203932627102]
3Dの人間のポーズ推定は、自動運転車が歩行者の微妙で複雑な振る舞いを知覚し理解できるようにする新しい技術である。
提案手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。
具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。
論文 参考訳(メタデータ) (2022-12-15T11:15:14Z) - Exploring Contextual Representation and Multi-Modality for End-to-End
Autonomous Driving [58.879758550901364]
最近の知覚システムは、センサー融合による空間理解を高めるが、しばしば完全な環境コンテキストを欠いている。
我々は,3台のカメラを統合し,人間の視野をエミュレートするフレームワークを導入し,トップダウンのバードアイビューセマンティックデータと組み合わせて文脈表現を強化する。
提案手法は, オープンループ設定において0.67mの変位誤差を達成し, nuScenesデータセットでは6.9%の精度で現在の手法を上回っている。
論文 参考訳(メタデータ) (2022-10-13T05:56:20Z) - Real-Time And Robust 3D Object Detection with Roadside LiDARs [20.10416681832639]
道路沿いのLiDARにおける交通参加者をリアルタイムに検出できる3次元物体検出モデルを設計する。
我々のモデルは既存の3D検出器をベースラインとして使用し、精度を向上させる。
スマートシティのアプリケーションに使用できるLiDARベースの3D検出器に多大な貢献をしています。
論文 参考訳(メタデータ) (2022-07-11T21:33:42Z) - ONCE-3DLanes: Building Monocular 3D Lane Detection [41.46466150783367]
OnCE-3DLanesは3次元空間にレーンレイアウトアノテーションを付加した実世界の自律走行データセットである。
点雲と画像ピクセルとの明確な関係を利用して、データセットのアノテーションパイプラインは、高品質な3Dレーンの位置を自動的に生成するように設計されている。
論文 参考訳(メタデータ) (2022-04-30T16:35:25Z) - Urban Traffic Surveillance (UTS): A fully probabilistic 3D tracking
approach based on 2D detections [11.34426502082293]
都市交通監視(Urban Traffic Surveillance、UTS)は、モノクロカメラとキャリブレーションカメラをベースとした監視システムである。
UTSは3Dバウンディングボックス表現と物理的に合理的な3Dモーションモデルを用いて車両を追跡している。
論文 参考訳(メタデータ) (2021-05-31T14:29:02Z) - End-to-end Interpretable Neural Motion Planner [78.69295676456085]
複雑な都市環境での自律走行学習のためのニューラルモーションプランナー(NMP)を提案する。
我々は,生lidarデータとhdマップを入力とし,解釈可能な中間表現を生成する全体モデルを設計した。
北米のいくつかの都市で収集された実世界の運転データにおける我々のアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-01-17T14:16:12Z) - Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data
Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。
私達のアプローチは人間の相互作用なしで完全に自動です。
VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-15T03:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。