論文の概要: Learning Reward Models for Cooperative Trajectory Planning with Inverse
Reinforcement Learning and Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2202.06443v2
- Date: Wed, 16 Feb 2022 09:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 12:34:57.864152
- Title: Learning Reward Models for Cooperative Trajectory Planning with Inverse
Reinforcement Learning and Monte Carlo Tree Search
- Title(参考訳): 逆強化学習とモンテカルロ木探索を用いた協調軌道計画のための学習報酬モデル
- Authors: Karl Kurzer, Matthias Bitzer, J. Marius Z\"ollner
- Abstract要約: この研究は、特徴に基づくエントロピー逆強化学習(Entropy Inverse Reinforcement Learning)を用いて、記録された専門家軌道の確率を最大化する報酬モデルを学ぶ。
評価の結果,提案手法は専門家を模倣し,手動で調整したベースライン報酬モデルと類似した,合理的な報酬モデルを取り戻すことができることが示された。
- 参考スコア(独自算出の注目度): 2.658812114255374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative trajectory planning methods for automated vehicles, are capable
to solve traffic scenarios that require a high degree of cooperation between
traffic participants. In order for cooperative systems to integrate in
human-centered traffic, it is important that the automated systems behave
human-like, so that humans can anticipate the system's decisions. While
Reinforcement Learning has made remarkable progress in solving the decision
making part, it is non-trivial to parameterize a reward model that yields
predictable actions. This work employs feature-based Maximum Entropy Inverse
Reinforcement Learning in combination with Monte Carlo Tree Search to learn
reward models that maximizes the likelihood of recorded multi-agent cooperative
expert trajectories. The evaluation demonstrates that the approach is capable
of recovering a reasonable reward model that mimics the expert and performs
similar to a manually tuned baseline reward model.
- Abstract(参考訳): 自動運転車の協調軌道計画手法は、交通参加者間の高度な協力を必要とする交通シナリオを解決することができる。
協調システムが人間中心の交通に統合されるためには、自動化されたシステムが人間のように振る舞うことが重要であり、人間がシステムの決定を予測できる。
強化学習は意思決定部分の解決において著しい進歩を遂げているが、予測可能な行動をもたらす報酬モデルをパラメータ化するのは自明ではない。
本研究は,モンテカルロ木探索を併用した特徴量に基づく最大エントロピー逆強化学習を用いて,マルチエージェント協調学習の確率を最大化する報奨モデルを学習する。
評価の結果,提案手法は専門家を模倣し,手動で調整したベースライン報酬モデルと類似した,合理的な報酬モデルを取り戻すことができることが示された。
関連論文リスト
- Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - EnsembleFollower: A Hybrid Car-Following Framework Based On
Reinforcement Learning and Hierarchical Planning [22.63087292154406]
先進的な人間的な車追従を実現するための階層的計画枠組みを提案する。
EnsembleFollowerフレームワークには、複数の低レベルの自動車追従モデルを司法的に管理する、高レベルの強化学習ベースのエージェントが含まれている。
提案手法は,HighDデータセットから実世界の運転データに基づいて評価する。
論文 参考訳(メタデータ) (2023-08-30T12:55:02Z) - Learning Interpretable Models of Aircraft Handling Behaviour by
Reinforcement Learning from Human Feedback [12.858982225307809]
我々は、模擬飛行軌道に対するペアワイズ選好を用いて、報酬木と呼ばれる解釈可能なルールベースモデルを学習する。
我々はRLエージェントを訓練し、報奨木を目的とする高品質なハンドリング行動を実行する。
論文 参考訳(メタデータ) (2023-05-26T13:37:59Z) - Logic-based Reward Shaping for Multi-Agent Reinforcement Learning [1.5483078145498084]
強化学習は、その環境から学び、観察された報酬を最大化するために探索に大きく依存する。
従来の作業では、タスクに基づいて報酬関数を合成する自動メカニズムを提供するために、オートマタとロジックベースの報酬整形と環境仮定を組み合わせた。
マルチエージェント強化学習における論理に基づく報酬形成は,様々なシナリオやタスクに対してどのように設計できるかを考察する。
論文 参考訳(メタデータ) (2022-06-17T16:30:27Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Imaginary Hindsight Experience Replay: Curious Model-based Learning for
Sparse Reward Tasks [9.078290260836706]
複雑な報酬工学の必要性を先導するスパース・リワードタスクに適したモデルベース手法を提案する。
このアプローチはImaginary Hindsight Experience Replayと呼ばれ、想像データをポリシー更新に組み込むことで、現実世界のインタラクションを最小化する。
評価を行うと、この手法はOpenAI Gym Fetch Roboticsのベンチマークにおける最先端のモデルフリー手法と比較して、平均的なデータ効率が桁違いに向上する。
論文 参考訳(メタデータ) (2021-10-05T23:38:31Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z) - Optimising Stochastic Routing for Taxi Fleets with Model Enhanced
Reinforcement Learning [32.322091943124555]
我々は、道路配車サービスのための大規模な車両群のためのルーティングポリシーを最適化することを目指している。
モデルベースディスパッチアルゴリズム,モデルフリー強化学習アルゴリズム,新しいハイブリッドアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-22T13:55:26Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。