論文の概要: Think as Needed: Geometry-Driven Adaptive Perception for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2605.10117v1
- Date: Mon, 11 May 2026 07:34:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.603016
- Title: Think as Needed: Geometry-Driven Adaptive Perception for Autonomous Driving
- Title(参考訳): 自律運転のための幾何学駆動型適応認識
- Authors: Donghyun Kim, Jaehyoung Park,
- Abstract要約: 現在の3D検出モデルは、すべてのフレームに固定された計算予算を適用し、単純なシーンでリソースを浪費すると同時に、複雑なシーンのキャパシティを欠いている。
本稿では,各LiDARフレームの幾何学的複雑さを測定する適応型知覚アーキテクチャである拡張HOPEを提案する。
nuScenesとCARLAのベンチマークでは、強化HOPEは、正確さを損なわずに単純なシーンでのレイテンシを38%削減し、稀なロングテールシナリオでは平均平均精度を2.7ポイント改善している。
- 参考スコア(独自算出の注目度): 4.320171553006484
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Autonomous driving scenes range from empty highways to dense intersections with dozens of interacting road users, yet current 3D detection models apply a fixed computation budget to every frame, wasting resources on simple scenes while lacking capacity for complex ones. Existing approaches compound this problem: Transformer-based interaction models scale quadratically with the number of detected objects, and frame-by-frame processing causes the system to immediately forget objects the moment they become occluded. We propose Enhanced HOPE, an adaptive perception architecture that measures the geometric complexity of each incoming LiDAR frame using an unsupervised statistical estimator and routes it through a shallow or deep processing path accordingly, requiring no manual scene labels. To keep interaction modeling efficient, we replace quadratic pairwise attention with a linear-time subspace-based network that groups nearby objects into clusters and processes them jointly. The computational savings from these two mechanisms free up resources for a persistent temporal memory module that retains previously detected objects and traffic rules across frames, enabling the system to recall occluded objects seconds after they disappear from view. On the nuScenes and CARLA benchmarks, Enhanced HOPE reduces latency by 38% on simple scenes with no accuracy loss, improves mean Average Precision by 2.7 points on rare long-tail scenarios, and tracks objects through occlusions lasting over 5 seconds, where all tested baselines fail.
- Abstract(参考訳): 自律運転シーンは、空の高速道路から、数十人の対話する道路利用者による密集した交差点まで様々だが、現在の3D検出モデルは、すべてのフレームに固定された計算予算を適用し、単純なシーンではリソースを浪費し、複雑なシーンの容量を欠いている。
トランスフォーマーベースのインタラクションモデルは、検出されたオブジェクトの数と2次的にスケールする。
本研究では,非教師付き統計的推定器を用いて,各LiDARフレームの幾何学的複雑さを計測し,それに応じて浅い,あるいは深い処理経路をルーティングし,手動のシーンラベルを必要としない適応型認識アーキテクチャHOPEを提案する。
相互作用モデリングを効率的に保つために,近接する物体をクラスタにグループ化し,共同で処理する線形時間部分空間ネットワークに2次対の注意を置き換える。
これら2つのメカニズムからの計算的節約により、事前に検出されたオブジェクトとフレーム間のトラフィックルールを保持する永続的時間記憶モジュールのリソースが解放される。
nuScenesとCARLAのベンチマークでは、強化HOPEは単純なシーンでの遅延を38%削減し、平均精度を2.7ポイント改善し、オブジェクトを5秒以上のオクルージョンで追跡する。
関連論文リスト
- oTTC: Object Time-to-Contact for Motion Estimation in Autonomous Driving [4.707950656037167]
自律運転システムは衝突を避け安全に運転するために 物体検出に大きく依存している
モノクロ3Dオブジェクト検出器は、カメラ画像から3D境界ボックスと物体速度を直接予測することでこの問題を解決しようとする。
最近の研究では、ピクセルごとの時間対接触を推定し、速度と深さの組み合わせよりも効果的に測定できることが示唆されている。
オブジェクト検出モデルを拡張したオブジェクトごとの時間対接触推定を提案し,各オブジェクトの時間対接触属性を付加的に予測する。
論文 参考訳(メタデータ) (2024-05-13T12:34:18Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Spatial-Temporal Graph Enhanced DETR Towards Multi-Frame 3D Object Detection [54.041049052843604]
STEMDは,多フレーム3Dオブジェクト検出のためのDETRのようなパラダイムを改良した,新しいエンドツーエンドフレームワークである。
まず、オブジェクト間の空間的相互作用と複雑な時間的依存をモデル化するために、空間的時間的グラフアテンションネットワークを導入する。
最後に、ネットワークが正のクエリと、ベストマッチしない他の非常に類似したクエリを区別することが課題となる。
論文 参考訳(メタデータ) (2023-07-01T13:53:14Z) - MonoPIC -- A Monocular Low-Latency Pedestrian Intention Classification
Framework for IoT Edges Using ID3 Modelled Decision Trees [0.0]
本稿では,2次元のフレーム内の任意の歩行者の意図を論理状態に分類するアルゴリズムを提案する。
これにより、比較的レイテンシの高いディープラーニングアルゴリズムを使用する必要がなくなる。
平均テスト精度は83.56%で信頼性は0.0042で、平均レイテンシは48ミリ秒であった。
論文 参考訳(メタデータ) (2023-04-01T02:42:24Z) - Ret3D: Rethinking Object Relations for Efficient 3D Object Detection in
Driving Scenes [82.4186966781934]
Ret3Dと呼ばれるシンプルで効率的で効果的な2段階検出器を導入する。
Ret3Dの中核は、新しいフレーム内およびフレーム間関係モジュールの利用である。
無視できる余分なオーバーヘッドにより、Ret3Dは最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-18T03:48:58Z) - Relation3DMOT: Exploiting Deep Affinity for 3D Multi-Object Tracking
from View Aggregation [8.854112907350624]
3Dマルチオブジェクトトラッキングは、自律ナビゲーションにおいて重要な役割を果たす。
多くのアプローチでは、トラッキングのための2次元RGBシーケンス内のオブジェクトを検出するが、これは3次元空間内のオブジェクトをローカライズする際の信頼性の欠如である。
本稿では,隣接フレーム内の各オブジェクト間の相関をよりよく活用するために,RelationConvという新しい畳み込み演算を提案する。
論文 参考訳(メタデータ) (2020-11-25T16:14:40Z) - Risk-Averse MPC via Visual-Inertial Input and Recurrent Networks for
Online Collision Avoidance [95.86944752753564]
本稿では,モデル予測制御(MPC)の定式化を拡張したオンライン経路計画アーキテクチャを提案する。
我々のアルゴリズムは、状態推定の共分散を推論するリカレントニューラルネットワーク(RNN)とオブジェクト検出パイプラインを組み合わせる。
本手法のロバスト性は, 複雑な四足歩行ロボットの力学で検証され, ほとんどのロボットプラットフォームに適用可能である。
論文 参考訳(メタデータ) (2020-07-28T07:34:30Z) - Road Curb Detection and Localization with Monocular Forward-view Vehicle
Camera [74.45649274085447]
魚眼レンズを装着した校正単眼カメラを用いて3Dパラメータを推定するロバストな手法を提案する。
我々のアプローチでは、車両が90%以上の精度で、リアルタイムで距離を抑えることができる。
論文 参考訳(メタデータ) (2020-02-28T00:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。