論文の概要: Learnability-Driven Submodular Optimization for Active Roadside 3D Detection
- arxiv url: http://arxiv.org/abs/2601.01695v1
- Date: Sun, 04 Jan 2026 23:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.651769
- Title: Learnability-Driven Submodular Optimization for Active Roadside 3D Detection
- Title(参考訳): 能動路面3次元検出のための学習可能性駆動サブモジュール最適化
- Authors: Ruiyu Mao, Baoming Zhang, Nicholas Ruozzi, Yunhui Guo,
- Abstract要約: 本研究は,道路側モノクロ3次元物体検出のための能動的学習に焦点を当てた。
本稿では,情報的かつ確実にラベル付け可能なシーンを選択する学習可能性駆動型フレームワークを提案する。
実験の結果, 自動車, 歩行者, 自転車のフルパフォーマンスの86.06%, 67.32%, 78.67%がLH3Dであることがわかった。
- 参考スコア(独自算出の注目度): 24.30599734067415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Roadside perception datasets are typically constructed via cooperative labeling between synchronized vehicle and roadside frame pairs. However, real deployment often requires annotation of roadside-only data due to hardware and privacy constraints. Even human experts struggle to produce accurate labels without vehicle-side data (image, LIDAR), which not only increases annotation difficulty and cost, but also reveals a fundamental learnability problem: many roadside-only scenes contain distant, blurred, or occluded objects whose 3D properties are ambiguous from a single view and can only be reliably annotated by cross-checking paired vehicle--roadside frames. We refer to such cases as inherently ambiguous samples. To reduce wasted annotation effort on inherently ambiguous samples while still obtaining high-performing models, we turn to active learning. This work focuses on active learning for roadside monocular 3D object detection and proposes a learnability-driven framework that selects scenes which are both informative and reliably labelable, suppressing inherently ambiguous samples while ensuring coverage. Experiments demonstrate that our method, LH3D, achieves 86.06%, 67.32%, and 78.67% of full-performance for vehicles, pedestrians, and cyclists respectively, using only 25% of the annotation budget on DAIR-V2X-I, significantly outperforming uncertainty-based baselines. This confirms that learnability, not uncertainty, matters for roadside 3D perception.
- Abstract(参考訳): 路面認識データセットは通常、同期車両と路面フレームペア間の協調ラベリングによって構築される。
しかしながら、実際のデプロイメントでは、ハードウェアとプライバシの制約により、ロードサイドのみのデータアノテーションが必要になることが多い。
人間の専門家でさえ、車側データ(画像、LIDAR)なしで正確なラベルを作るのに苦労しているため、アノテーションの難易度とコストを増大させるだけでなく、基本的な学習可能性の問題も露呈している。
このような事例を、本質的にあいまいなサンプルとして言及する。
未明なサンプルに対する無駄なアノテーションの労力を減らし,高い性能のモデルを得たまま,能動的学習に転換する。
本研究は,道路沿いのモノクル3次元物体検出のための能動的学習に焦点をあて,情報的かつ確実にラベル付け可能なシーンを選択する学習可能性駆動型フレームワークを提案する。
DAIR-V2X-Iのアノテーション予算の25%しか使用せず, 車両, 歩行者, サイクリストのフルパフォーマンスの86.06%, 67.32%, 78.67%を達成できた。
これは、不確実性ではなく、学習可能性が道端の3D知覚に重要であることを確認する。
関連論文リスト
- PLOT: Pseudo-Labeling via Video Object Tracking for Scalable Monocular 3D Object Detection [35.524943073010675]
モノクロ3Dオブジェクト検出(M3OD)は、高アノテーションコストと固有の2Dから3Dの曖昧さに起因するデータの不足により、長年にわたって課題に直面してきた。
ビデオデータのみを使用し、マルチビュー設定、追加センサー、カメラポーズ、ドメイン固有のトレーニングを必要とせず、より堅牢な疑似ラベルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-03T07:46:39Z) - ToosiCubix: Monocular 3D Cuboid Labeling via Vehicle Part Annotations [0.40964539027092906]
Toosiixは、単眼画像とカメラパラメータのみを用いて、接地木立方体に注釈を付けるための、シンプルだが強力なアプローチである。
提案手法では,車両1台あたり10クリック程度しか必要とせず,既存のデータセットに3Dアノテーションを追加することは極めて実用的である。
KITTIとCityscapes3Dデータセットに対するアノテーションを検証することで、当社の手法がコスト効率が高くスケーラブルなソリューションを提供することを示す。
論文 参考訳(メタデータ) (2025-06-26T15:09:33Z) - Spotting the Unexpected (STU): A 3D LiDAR Dataset for Anomaly Segmentation in Autonomous Driving [14.403130104985557]
本稿では,運転シナリオにおける異常セグメンテーションのための新しいデータセットを提案する。
これは、密集した3Dセマンティックラベリングによる道路異常セグメンテーションに焦点を当てた初めての公開データセットである。
データセットと評価コードは公開され、さまざまなアプローチのテストとパフォーマンスの比較が容易になります。
論文 参考訳(メタデータ) (2025-05-04T15:15:35Z) - Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - View-to-Label: Multi-View Consistency for Self-Supervised 3D Object
Detection [46.077668660248534]
本稿では,RGBシーケンスのみから,自己監督型3Dオブジェクト検出を行う手法を提案する。
KITTI 3Dデータセットを用いた実験では,最先端の自己管理手法と同等の性能を示した。
論文 参考訳(メタデータ) (2023-05-29T09:30:39Z) - Unsupervised Adaptation from Repeated Traversals for Autonomous Driving [54.59577283226982]
自動運転車はエンドユーザー環境に一般化し、確実に動作させなければならない。
潜在的な解決策の1つは、エンドユーザの環境から収集されたラベルのないデータを活用することである。
適応過程を監督する信頼性のある信号はターゲット領域に存在しない。
この単純な仮定は、ターゲット領域上の3次元物体検出器の反復的自己学習を可能にする強力な信号を得るのに十分であることを示す。
論文 参考訳(メタデータ) (2023-03-27T15:07:55Z) - Weakly Supervised Monocular 3D Object Detection using Multi-View
Projection and Direction Consistency [78.76508318592552]
モノクロ3Dオブジェクト検出は、その容易なアプリケーションのための自動駆動において、主流のアプローチとなっている。
現在のほとんどの方法は、トレーニングフェーズで使用される真実をラベル付けするために、まだ3Dポイントのクラウドデータに依存しています。
画像にマークされた2次元ラベルだけでモデルを訓練できる,弱教師付きモノクル3次元オブジェクト検出法を提案する。
論文 参考訳(メタデータ) (2023-03-15T15:14:00Z) - Benchmarking the Robustness of LiDAR-Camera Fusion for 3D Object
Detection [58.81316192862618]
自律運転における3D知覚のための2つの重要なセンサーは、カメラとLiDARである。
これら2つのモダリティを融合させることで、3次元知覚モデルの性能を大幅に向上させることができる。
我々は、最先端の核融合法を初めてベンチマークした。
論文 参考訳(メタデータ) (2022-05-30T09:35:37Z) - Exploring Diversity-based Active Learning for 3D Object Detection in Autonomous Driving [45.405303803618]
多様性に基づくアクティブラーニング(AL)を,アノテーションの負担を軽減するための潜在的解決策として検討する。
選択したサンプルの空間的・時間的多様性を強制する新しい取得関数を提案する。
提案手法がnuScenesデータセットに与える影響を実証し,既存のAL戦略を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-05-16T14:21:30Z) - Road Curb Detection and Localization with Monocular Forward-view Vehicle
Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。
我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文 参考訳(メタデータ) (2020-02-28T00:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。