論文の概要: Learning Reward Models for Cooperative Trajectory Planning with Inverse
Reinforcement Learning and Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2202.06443v2
- Date: Wed, 16 Feb 2022 09:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 12:34:57.864152
- Title: Learning Reward Models for Cooperative Trajectory Planning with Inverse
Reinforcement Learning and Monte Carlo Tree Search
- Title(参考訳): 逆強化学習とモンテカルロ木探索を用いた協調軌道計画のための学習報酬モデル
- Authors: Karl Kurzer, Matthias Bitzer, J. Marius Z\"ollner
- Abstract要約: この研究は、特徴に基づくエントロピー逆強化学習(Entropy Inverse Reinforcement Learning)を用いて、記録された専門家軌道の確率を最大化する報酬モデルを学ぶ。
評価の結果,提案手法は専門家を模倣し,手動で調整したベースライン報酬モデルと類似した,合理的な報酬モデルを取り戻すことができることが示された。
- 参考スコア(独自算出の注目度): 2.658812114255374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative trajectory planning methods for automated vehicles, are capable
to solve traffic scenarios that require a high degree of cooperation between
traffic participants. In order for cooperative systems to integrate in
human-centered traffic, it is important that the automated systems behave
human-like, so that humans can anticipate the system's decisions. While
Reinforcement Learning has made remarkable progress in solving the decision
making part, it is non-trivial to parameterize a reward model that yields
predictable actions. This work employs feature-based Maximum Entropy Inverse
Reinforcement Learning in combination with Monte Carlo Tree Search to learn
reward models that maximizes the likelihood of recorded multi-agent cooperative
expert trajectories. The evaluation demonstrates that the approach is capable
of recovering a reasonable reward model that mimics the expert and performs
similar to a manually tuned baseline reward model.
- Abstract(参考訳): 自動運転車の協調軌道計画手法は、交通参加者間の高度な協力を必要とする交通シナリオを解決することができる。
協調システムが人間中心の交通に統合されるためには、自動化されたシステムが人間のように振る舞うことが重要であり、人間がシステムの決定を予測できる。
強化学習は意思決定部分の解決において著しい進歩を遂げているが、予測可能な行動をもたらす報酬モデルをパラメータ化するのは自明ではない。
本研究は,モンテカルロ木探索を併用した特徴量に基づく最大エントロピー逆強化学習を用いて,マルチエージェント協調学習の確率を最大化する報奨モデルを学習する。
評価の結果,提案手法は専門家を模倣し,手動で調整したベースライン報酬モデルと類似した,合理的な報酬モデルを取り戻すことができることが示された。
関連論文リスト
- End-to-End Steering for Autonomous Vehicles via Conditional Imitation Co-Learning [1.5020330976600735]
この課題に対処するために、条件付き模倣コラーニング(CIC)アプローチを導入する。
そこで我々は, 回帰と分類のギャップを埋めるために, 分類-回帰ハイブリッド損失を用いて, 操舵回帰問題を分類として提案する。
本モデルは,CIL法と比較して,見えない環境下での自律走行の成功率を平均62%向上させることを実証した。
論文 参考訳(メタデータ) (2024-11-25T06:37:48Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - EnsembleFollower: A Hybrid Car-Following Framework Based On
Reinforcement Learning and Hierarchical Planning [22.63087292154406]
先進的な人間的な車追従を実現するための階層的計画枠組みを提案する。
EnsembleFollowerフレームワークには、複数の低レベルの自動車追従モデルを司法的に管理する、高レベルの強化学習ベースのエージェントが含まれている。
提案手法は,HighDデータセットから実世界の運転データに基づいて評価する。
論文 参考訳(メタデータ) (2023-08-30T12:55:02Z) - Learning Interpretable Models of Aircraft Handling Behaviour by
Reinforcement Learning from Human Feedback [12.858982225307809]
我々は、模擬飛行軌道に対するペアワイズ選好を用いて、報酬木と呼ばれる解釈可能なルールベースモデルを学習する。
我々はRLエージェントを訓練し、報奨木を目的とする高品質なハンドリング行動を実行する。
論文 参考訳(メタデータ) (2023-05-26T13:37:59Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks [9.078290260836706]
複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
論文 参考訳(メタデータ) (2021-10-05T23:38:31Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Optimising Stochastic Routing for Taxi Fleets with Model Enhanced
Reinforcement Learning [32.322091943124555]
我々は、道路配車サービスのための大規模な車両群のためのルーティングポリシーを最適化することを目指している。
モデルベースディスパッチアルゴリズム,モデルフリー強化学習アルゴリズム,新しいハイブリッドアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-22T13:55:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。