論文の概要: Informed Reinforcement Learning for Situation-Aware Traffic Rule Exceptions
- arxiv url: http://arxiv.org/abs/2402.04168v2
- Date: Wed, 12 Jun 2024 11:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 22:53:54.976130
- Title: Informed Reinforcement Learning for Situation-Aware Traffic Rule Exceptions
- Title(参考訳): 状況を考慮した交通ルール例外に対するインフォームド強化学習
- Authors: Daniel Bogdoll, Jing Qin, Moritz Nekolla, Ahmed Abouelazm, Tim Joseph, J. Marius Zöllner,
- Abstract要約: 本稿では,構造化ルールブックを知識源として統合するインフォームド強化学習を紹介する。
我々は、トラジェクトリを学び、それらを状況に応じた報酬設計で評価し、エージェントが制御された交通規則例外を必要とする状況を学ぶことができる動的な報酬をもたらす。
- 参考スコア(独自算出の注目度): 22.305075467333673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning is a highly active research field with promising advancements. In the field of autonomous driving, however, often very simple scenarios are being examined. Common approaches use non-interpretable control commands as the action space and unstructured reward designs which lack structure. In this work, we introduce Informed Reinforcement Learning, where a structured rulebook is integrated as a knowledge source. We learn trajectories and asses them with a situation-aware reward design, leading to a dynamic reward which allows the agent to learn situations which require controlled traffic rule exceptions. Our method is applicable to arbitrary RL models. We successfully demonstrate high completion rates of complex scenarios with recent model-based agents.
- Abstract(参考訳): 強化学習は、有望な進歩を伴う非常に活発な研究分野である。
しかし、自動運転の分野では、しばしば非常に単純なシナリオが検討されている。
一般的なアプローチでは、非解釈可能な制御コマンドをアクション空間として、構造を持たない非構造的な報酬設計として使用する。
本稿では,構造化ルールブックを知識源として統合するインフォームド強化学習を紹介する。
我々は、トラジェクトリを学び、それらを状況に応じた報酬設計で評価し、エージェントが制御された交通規則例外を必要とする状況を学ぶことができる動的な報酬をもたらす。
我々の方法は任意のRLモデルに適用できる。
近年のモデルベースエージェントを用いた複雑なシナリオの完成率の向上に成功している。
関連論文リスト
- Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Efficient Open-world Reinforcement Learning via Knowledge Distillation
and Autonomous Rule Discovery [5.680463564655267]
ルール駆動のディープラーニングエージェント(RDQ)がフレームワークの実装の可能な1つだ。
RDQは,世界との対話において,タスク固有のルールを抽出することに成功した。
実験では,RDQエージェントはベースラインエージェントよりも新規性に非常に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-11-24T04:12:50Z) - Improving Long-Horizon Imitation Through Instruction Prediction [93.47416552953075]
本研究では、しばしば使われない補助的監督源である言語の使用について検討する。
近年のトランスフォーマーモデルの発展にインスパイアされたエージェントは,高レベルの抽象化で動作する時間拡張表現の学習を促す命令予測損失を持つエージェントを訓練する。
さらなる分析では、複雑な推論を必要とするタスクにおいて、命令モデリングが最も重要であり、単純な計画を必要とする環境において、より小さなゲインを提供する。
論文 参考訳(メタデータ) (2023-06-21T20:47:23Z) - Automatically Learning Fallback Strategies with Model-Free Reinforcement
Learning in Safety-Critical Driving Scenarios [9.761912672523977]
本稿では, モデルレス強化学習(RL)エージェントに対して, 環境内の複数の動作モードを捉えるための原則的アプローチを提案する。
我々は、報酬モデルに擬似報酬項を導入し、最適政策によって特権付けられた領域とは異なる国家空間の領域への探索を奨励する。
我々は、トレーニング中に見逃されたであろう有用なポリシーを学習でき、制御アルゴリズムの実行時に使用できないことを示す。
論文 参考訳(メタデータ) (2022-04-11T15:34:49Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - On the Theory of Reinforcement Learning with Once-per-Episode Feedback [120.5537226120512]
本稿では,エピソード終盤に一度だけフィードバックを受ける強化学習の理論を紹介する。
これは、学習者が毎回フィードバックを受け取るという従来の要件よりも、現実世界のアプリケーションの代表的です。
論文 参考訳(メタデータ) (2021-05-29T19:48:51Z) - Affordance-based Reinforcement Learning for Urban Driving [3.507764811554557]
経路点と低次元視覚表現を用いた最適制御ポリシーを学習するための深層強化学習フレームワークを提案する。
スクラッチから訓練されたエージェントは、車線追従のタスクを学習し、区間間を走り回り、密集した交通状況でも他のアクターや信号機の前で立ち止まることを実証する。
論文 参考訳(メタデータ) (2021-01-15T05:21:25Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - NEARL: Non-Explicit Action Reinforcement Learning for Robotic Control [15.720231070808696]
本稿では,明示的な動作を伴わない新しい階層型強化学習フレームワークを提案する。
我々のメタポリシーは次の最適状態の操作を試み、実際の動作は逆ダイナミクスモデルによって生成される。
我々のフレームワークでは、広く利用可能な州のみのデモンストレーションを模倣学習に効果的に活用することができる。
論文 参考訳(メタデータ) (2020-11-02T15:28:19Z) - Interpretable End-to-end Urban Autonomous Driving with Latent Deep
Reinforcement Learning [32.97789225998642]
本稿では,エンドツーエンド自動運転のための解釈可能な深部強化学習手法を提案する。
逐次潜在環境モデルを導入し、強化学習プロセスと共同で学習する。
本手法は,自動車が運転環境にどう影響するかを,よりよく説明することができる。
論文 参考訳(メタデータ) (2020-01-23T18:36:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。