論文の概要: Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning
- arxiv url: http://arxiv.org/abs/2508.18397v1
- Date: Mon, 25 Aug 2025 18:37:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.557064
- Title: Mining the Long Tail: A Comparative Study of Data-Centric Criticality Metrics for Robust Offline Reinforcement Learning in Autonomous Motion Planning
- Title(参考訳): ロングテールのマイニング:自律型運動計画におけるロバストオフライン強化学習のためのデータ中心臨界メトリクスの比較研究
- Authors: Antonio Guillen-Perez,
- Abstract要約: 我々は、情報豊富なサンプルに学習過程を集中させるためのデータキュレーション戦略について研究する。
我々は、7つの目標条件付き保守的Qラーニング(CQL)エージェントを最先端の注目アーキテクチャで訓練する。
モデル不確実性を信号として用いたデータ駆動型キュレーションは、最も重要な安全性向上を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline Reinforcement Learning (RL) presents a promising paradigm for training autonomous vehicle (AV) planning policies from large-scale, real-world driving logs. However, the extreme data imbalance in these logs, where mundane scenarios vastly outnumber rare "long-tail" events, leads to brittle and unsafe policies when using standard uniform data sampling. In this work, we address this challenge through a systematic, large-scale comparative study of data curation strategies designed to focus the learning process on information-rich samples. We investigate six distinct criticality weighting schemes which are categorized into three families: heuristic-based, uncertainty-based, and behavior-based. These are evaluated at two temporal scales, the individual timestep and the complete scenario. We train seven goal-conditioned Conservative Q-Learning (CQL) agents with a state-of-the-art, attention-based architecture and evaluate them in the high-fidelity Waymax simulator. Our results demonstrate that all data curation methods significantly outperform the baseline. Notably, data-driven curation using model uncertainty as a signal achieves the most significant safety improvements, reducing the collision rate by nearly three-fold (from 16.0% to 5.5%). Furthermore, we identify a clear trade-off where timestep-level weighting excels at reactive safety while scenario-level weighting improves long-horizon planning. Our work provides a comprehensive framework for data curation in Offline RL and underscores that intelligent, non-uniform sampling is a critical component for building safe and reliable autonomous agents.
- Abstract(参考訳): オフライン強化学習(RL)は、大規模で現実的な運転ログから自動運転車(AV)計画ポリシーをトレーニングするための有望なパラダイムを提供する。
しかしながら、通常のシナリオが稀な"ロングテール"イベントよりも圧倒的に多いこれらのログにおける極端なデータ不均衡は、標準の均一なデータサンプリングを使用する場合、不安定で安全でないポリシーにつながる。
本研究では,この課題に対して,情報豊富なサンプルに学習過程を集中させることを目的としたデータキュレーション戦略の体系的かつ大規模比較研究を通じて対処する。
本研究は,ヒューリスティックベース,不確実性ベース,行動ベースという3つのファミリーに分類される6つの異なる臨界重み付け方式について検討する。
これらは、個々の時間ステップと完全なシナリオの2つの時間スケールで評価される。
我々は、7つの目標条件付き保守的Q-Learning(CQL)エージェントを最先端の注目アーキテクチャで訓練し、高忠実度Waymaxシミュレータで評価する。
その結果,全てのデータキュレーション手法がベースラインをはるかに上回ることがわかった。
特に、信号としてモデル不確実性を用いるデータ駆動キュレーションは、最も重要な安全性の向上を実現し、衝突速度を3倍近く(16.0%から5.5%)下げる。
さらに、シナリオレベルの重み付けが長期計画を改善する一方、タイムステップレベルの重み付けが反応性の安全性に優れる明確なトレードオフを特定する。
私たちの研究は、オフラインRLにおけるデータキュレーションのための包括的なフレームワークを提供し、インテリジェントで一様でないサンプリングが、安全で信頼性の高い自律エージェントを構築する上で重要な要素であることを示す。
関連論文リスト
- From Imitation to Optimization: A Comparative Study of Offline Learning for Autonomous Driving [0.0]
この研究は、この制限に対処するための包括的なパイプラインと比較研究を提示している。
まず,BC(Behavimental Cloning)ベースラインの開発について述べる。
次に、最先端のオフライン強化学習アルゴリズムである保守的Qラーニング(CQL)を同じデータとアーキテクチャに適用することにより、より堅牢なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2025-08-09T16:03:10Z) - Test-time Offline Reinforcement Learning on Goal-related Experience [50.94457794664909]
基礎モデルの研究では、テストタイムトレーニングによってパフォーマンスが大幅に改善できることが示されている。
本稿では、オフラインデータセットから現在の状態への関連性に応じて遷移を選択する、新しい自己教師型データ選択基準を提案する。
目標条件付きテストタイムトレーニング(GC-TTT)アルゴリズムは、評価中にこのルーチンを後退水平方式で適用し、現在の軌道にポリシーを適用する。
論文 参考訳(メタデータ) (2025-07-24T21:11:39Z) - Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [61.145371212636505]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。
異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - Towards Robust Offline Reinforcement Learning under Diverse Data
Corruption [46.16052026620402]
暗黙的なQ-ラーニング(IQL)は、様々なオフラインRLアルゴリズムにおいて、データの破損に対して顕著なレジリエンスを示す。
より堅牢なオフラインRLアプローチであるRobust IQL(RIQL)を提案する。
論文 参考訳(メタデータ) (2023-10-19T17:54:39Z) - Uncertainty-based Meta-Reinforcement Learning for Robust Radar Tracking [3.012203489670942]
本稿では,不確実性に基づくメタ強化学習(Meta-RL)手法を提案する。
その複雑さに関する情報を用いて、提案アルゴリズムはトラッキングの信頼性を指摘することができる。
そこで本研究では,メタRL手法がピーク時の追跡シナリオを16%,ベースラインを35%上回ることを示す。
論文 参考訳(メタデータ) (2022-10-26T07:48:56Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Benchmarking Safe Deep Reinforcement Learning in Aquatic Navigation [78.17108227614928]
本研究では,水文ナビゲーションに着目した安全強化学習のためのベンチマーク環境を提案する。
価値に基づく政策段階の深層強化学習(DRL)について考察する。
また,学習したモデルの振る舞いを所望の特性の集合上で検証する検証戦略を提案する。
論文 参考訳(メタデータ) (2021-12-16T16:53:56Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。