論文の概要: Scalable Offline Metrics for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2510.08571v1
- Date: Thu, 09 Oct 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.314226
- Title: Scalable Offline Metrics for Autonomous Driving
- Title(参考訳): 自律運転のためのスケーラブルなオフラインメトリクス
- Authors: Animikh Aich, Adwait Kulkarni, Eshed Ohn-Bar,
- Abstract要約: ロボットシステムの知覚に基づく計画モデルの実世界評価は、安全かつ安価にオフラインで行うことができる。
しかし、オフラインモデルのパフォーマンスからオンライン設定への外挿は依然として課題である。
これらの設定では、一見小さなエラーが複雑になり、テスト時間違反や衝突を引き起こします。
- 参考スコア(独自算出の注目度): 12.613436727986652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-World evaluation of perception-based planning models for robotic systems, such as autonomous vehicles, can be safely and inexpensively conducted offline, i.e., by computing model prediction error over a pre-collected validation dataset with ground-truth annotations. However, extrapolating from offline model performance to online settings remains a challenge. In these settings, seemingly minor errors can compound and result in test-time infractions or collisions. This relationship is understudied, particularly across diverse closed-loop metrics and complex urban maneuvers. In this work, we revisit this undervalued question in policy evaluation through an extensive set of experiments across diverse conditions and metrics. Based on analysis in simulation, we find an even worse correlation between offline and online settings than reported by prior studies, casting doubts on the validity of current evaluation practices and metrics for driving policies. Next, we bridge the gap between offline and online evaluation. We investigate an offline metric based on epistemic uncertainty, which aims to capture events that are likely to cause errors in closed-loop settings. The resulting metric achieves over 13% improvement in correlation compared to previous offline metrics. We further validate the generalization of our findings beyond the simulation environment in real-world settings, where even greater gains are observed.
- Abstract(参考訳): 自律走行車などのロボットシステムに対する知覚に基づく計画モデルの実世界評価は、安全かつ安価にオフラインで行うことができる。
しかし、オフラインモデルのパフォーマンスからオンライン設定への外挿は依然として課題である。
これらの設定では、一見小さなエラーが複雑になり、テスト時間違反や衝突を引き起こします。
この関係は、特に様々な閉ループのメトリクスと複雑な都市での操作で研究されている。
本研究は,様々な条件や指標にまたがる広範な実験を通じて,政策評価におけるこの過小評価された疑問を再考する。
シミュレーションで分析した結果,従来の研究よりもオフラインとオンラインのセッティングの相関がさらに悪化していることが判明した。
次に、オフラインとオンライン評価のギャップを埋める。
本研究では, 閉ループ設定における誤りを生じる可能性のある事象を捉えることを目的とした, 疫学的不確実性に基づくオフラインメトリクスについて検討する。
結果として得られたメトリクスは、以前のオフラインメトリクスと比較して13%以上の相関改善を実現している。
さらに,実環境におけるシミュレーション環境を超えて,より大きな利得が観測されるような結果の一般化を検証した。
関連論文リスト
- Position: All Current Generative Fidelity and Diversity Metrics are Flawed [58.815519650465774]
現在のジェネレーティブの忠実度と多様性の指標がすべて欠陥があることを示します。
私たちの目標は、モデルではなく、メトリクスの開発により多くの労力を費やすように研究コミュニティを説得することにあります。
論文 参考訳(メタデータ) (2025-05-28T15:10:33Z) - The Effects of Data Split Strategies on the Offline Experiments for CTR Prediction [0.0]
本研究の目的は,現在のオフライン評価手法と実世界のユースケースの矛盾に対処することである。
大規模なオープンベンチマークデータセットであるCriteo上で、ランダムスプリットとテンポラルスプリットの両方を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-06-26T13:01:52Z) - Improving Offline Reinforcement Learning with Inaccurate Simulators [34.54402525918925]
オフラインデータセットと不正確なシミュレーションデータをよりうまく組み合わせる新しい手法を提案する。
具体的には、オフラインデータセットの状態分布に合わせるために、GAN(Generative Adversarial Network)モデルを事前訓練する。
D4RLベンチマークと実世界の操作タスクによる実験結果から,提案手法は不正確なシミュレータと限定されたオフラインデータセットにより,最先端の手法よりも優れた性能を実現することができることを確認した。
論文 参考訳(メタデータ) (2024-05-07T13:29:41Z) - Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? [84.17711168595311]
エンドツーエンドの自動運転は、フルスタックの観点から自律性を目標とする、有望な研究の方向性として浮上している。
比較的単純な駆動シナリオを特徴とするnuScenesデータセットは、エンド・ツー・エンド・モデルにおける知覚情報の未使用化につながる。
予測軌跡が道路に付着するかどうかを評価するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-12-05T11:32:31Z) - Navigating the Noise: Bringing Clarity to ML Parameterization Design with O(100) Ensembles [1.9199275795132604]
サブグリッドプロセスの機械学習(ML)パラメータ化は、いつか従来のパラメータ化を置き換えるかもしれない。
オフラインとオンラインのパフォーマンスの関係の不確実性は、彼らの開発を妨げる。
オフラインエラーの体系的削減がオンラインエラーやオンライン安定性の変化にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-09-28T05:34:29Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Injecting Planning-Awareness into Prediction and Detection Evaluation [42.228191984697006]
私たちは一歩後退して、現在の評価指標を批判的に評価し、タスク対応メトリクスを、デプロイされるシステムのパフォーマンスのより良い測定基準として提案します。
実世界の自律運転データとともに、実世界のシミュレーション実験により、提案したタスク認識メトリクスが結果非対称性を考慮でき、モデルのクローズドループ性能をよりよく推定できることを確認した。
論文 参考訳(メタデータ) (2021-10-07T08:52:48Z) - A Unified Framework for Online Trip Destination Prediction [7.34084539365505]
旅行先予測は、旅行計画や自動運転など、多くのアプリケーションで重要性が高まっている分野です。
本稿では,オンライントレーニングとオンライン予測の両方に適したオンライン環境での旅行先予測のための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-12T14:45:27Z) - Do Offline Metrics Predict Online Performance in Recommender Systems? [79.48653445643865]
6つのシミュレーション環境におけるレコメンデータの評価により,オフラインメトリクスがオンラインのパフォーマンスを予測する程度について検討した。
オフラインメトリクスは、様々な環境におけるオンラインのパフォーマンスと相関している。
本研究は,探索戦略の追加による影響について検討し,その有効性はレコメンデーションアルゴリズムに大きく依存していることを示す。
論文 参考訳(メタデータ) (2020-11-07T01:41:13Z) - AliExpress Learning-To-Rank: Maximizing Online Model Performance without
Going Online [60.887637616379926]
本稿では,学習からランクへ学習するための評価器・ジェネレータフレームワークを提案する。
コンテキストを含むレコメンデーションを一般化して評価する評価器と、強化学習による評価器スコアを最大化するジェネレータとから構成される。
本手法は, オンラインA/Bテストにおける産業レベルの微調整モデルよりも, 変換率(CR)の面で大幅に向上する。
論文 参考訳(メタデータ) (2020-03-25T10:27:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。