論文の概要: Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2409.18343v1
- Date: Thu, 26 Sep 2024 23:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 06:50:51.811427
- Title: Improving Agent Behaviors with RL Fine-tuning for Autonomous Driving
- Title(参考訳): 自律走行のためのRL微細調整によるエージェントの挙動改善
- Authors: Zhenghao Peng, Wenjie Luo, Yiren Lu, Tianyi Shen, Cole Gulino, Ari Seff, Justin Fu,
- Abstract要約: 我々は,強化学習を用いた行動モデルのクローズドループ微調整によりエージェント動作の信頼性を向上させる。
本手法は,衝突速度などの目標値の改善とともに,全体的な性能の向上を示す。
シミュレーションエージェントが自律走行車プランナーの質を計測する能力を直接評価するための新しいポリシー評価ベンチマークを提案する。
- 参考スコア(独自算出の注目度): 17.27549891731047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major challenge in autonomous vehicle research is modeling agent behaviors, which has critical applications including constructing realistic and reliable simulations for off-board evaluation and forecasting traffic agents motion for onboard planning. While supervised learning has shown success in modeling agents across various domains, these models can suffer from distribution shift when deployed at test-time. In this work, we improve the reliability of agent behaviors by closed-loop fine-tuning of behavior models with reinforcement learning. Our method demonstrates improved overall performance, as well as improved targeted metrics such as collision rate, on the Waymo Open Sim Agents challenge. Additionally, we present a novel policy evaluation benchmark to directly assess the ability of simulated agents to measure the quality of autonomous vehicle planners and demonstrate the effectiveness of our approach on this new benchmark.
- Abstract(参考訳): これは、オフボード評価のための現実的で信頼性の高いシミュレーションの構築や、オンボード計画のための交通エージェントの動きの予測など、重要な応用がある。
教師付き学習は、さまざまなドメインにわたるモデリングエージェントで成功しているが、これらのモデルは、テスト時にデプロイされた場合、分散シフトに悩まされる可能性がある。
本研究では,強化学習を伴う行動モデルのクローズドループ微調整によりエージェント動作の信頼性を向上させる。
本手法は、Waymo Open Sim Agents チャレンジにおいて、全体的な性能の向上と、衝突速度などの目標メトリクスの改善を実証する。
さらに,シミュレーションエージェントが自律走行車プランナーの質を計測する能力を直接評価し,本ベンチマークにおけるアプローチの有効性を実証する,新たなポリシー評価ベンチマークを提案する。
関連論文リスト
- Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Robust Model-Based Reinforcement Learning with an Adversarial Auxiliary Model [2.9109581496560044]
特定のマルコフ決定過程(MDP)で訓練するRLエージェントは、ほぼ同一のMDPでよく機能するのにしばしば苦労する。
我々は,ロバストMDPの枠組みをモデルベース設定に適用し,新しい学習遷移モデルを導入する。
実験結果から,高次元MuJoCo制御タスクにおけるポリシーロバスト性の顕著な改善が示唆された。
論文 参考訳(メタデータ) (2024-06-14T12:37:08Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Reinforcement Learning with Human Feedback for Realistic Traffic
Simulation [53.85002640149283]
効果的なシミュレーションの鍵となる要素は、人間の知識と整合した現実的な交通モデルの導入である。
本研究では,現実主義に対する人間の嗜好のニュアンスを捉えることと,多様な交通シミュレーションモデルを統合することの2つの主な課題を明らかにする。
論文 参考訳(メタデータ) (2023-09-01T19:29:53Z) - Differential Assessment of Black-Box AI Agents [29.98710357871698]
従来知られていたモデルから逸脱したブラックボックスAIエージェントを差分評価する手法を提案する。
我々は,漂流エージェントの現在の挙動と初期モデルの知識の疎度な観察を利用して,アクティブなクエリポリシーを生成する。
経験的評価は、エージェントモデルをスクラッチから再学習するよりも、我々のアプローチの方がはるかに効率的であることを示している。
論文 参考訳(メタデータ) (2022-03-24T17:48:58Z) - UMBRELLA: Uncertainty-Aware Model-Based Offline Reinforcement Learning
Leveraging Planning [1.1339580074756188]
オフライン強化学習(RL)は、オフラインデータから意思決定を学ぶためのフレームワークを提供する。
自動運転車(SDV)は、おそらく準最適データセットの振る舞いよりも優れるポリシーを学ぶ。
これはモデルベースのオフラインRLアプローチの使用を動機付け、プランニングを活用する。
論文 参考訳(メタデータ) (2021-11-22T10:37:52Z) - Uncertainty-Aware Model-Based Reinforcement Learning with Application to
Autonomous Driving [2.3303341607459687]
本稿では,新しい不確実性を考慮したモデルに基づく強化学習フレームワークを提案する。
このフレームワークは適応的トランケーションアプローチに基づいて開発され、エージェントと環境モデルの間の仮想相互作用を提供する。
開発したアルゴリズムは、エンド・ツー・エンドの自動運転車制御タスクで実装され、様々な運転シナリオにおける最先端の手法と比較される。
論文 参考訳(メタデータ) (2021-06-23T06:55:14Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Model-based versus Model-free Deep Reinforcement Learning for Autonomous
Racing Cars [46.64253693115981]
本稿では,モデルに基づく深層強化学習エージェントが現実世界の自律車両制御タスクに一般化する方法について検討する。
本稿では,想像力で学習可能なモデルベースエージェント,パフォーマンス,サンプル効率,タスク完了,一般化に関して,モデルフリーエージェントを実質的に上回っていることを示す。
論文 参考訳(メタデータ) (2021-03-08T17:15:23Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。