論文の概要: Reward (Mis)design for Autonomous Driving
- arxiv url: http://arxiv.org/abs/2104.13906v1
- Date: Wed, 28 Apr 2021 17:41:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-29 12:42:34.959150
- Title: Reward (Mis)design for Autonomous Driving
- Title(参考訳): 自動運転のための報酬(mis)設計
- Authors: W. Bradley Knox, Alessandro Allievi, Holger Banzhaf, Felix Schmitt,
Peter Stone
- Abstract要約: 報酬関数の欠陥を特定するための簡易な正当性チェックを8つ開発した。
このチェックは、自動運転のための強化学習に関する過去の研究から得られる報酬機能に適用される。
将来の研究者がADの報酬関数を設計するのに役立つ有望な方向を探ります。
- 参考スコア(独自算出の注目度): 89.2504219865973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper considers the problem of reward design for autonomous driving
(AD), with insights that are also applicable to the design of cost functions
and performance metrics more generally. Herein we develop 8 simple sanity
checks for identifying flaws in reward functions. The sanity checks are applied
to reward functions from past work on reinforcement learning (RL) for
autonomous driving, revealing near-universal flaws in reward design for AD that
might also exist pervasively across reward design for other tasks. Lastly, we
explore promising directions that may help future researchers design reward
functions for AD.
- Abstract(参考訳): 本稿では,自律運転(AD)における報酬設計の問題について考察し,コスト関数や性能指標の設計にも適用可能な知見を概観する。
ここでは、報酬関数の欠陥を特定するための簡易な正当性チェックを8つ作成する。
健全性チェックは、自動運転のための強化学習(rl)に関する過去の研究から得られた報酬機能に適用され、他のタスクの報酬設計にまたがる可能性のある広告に対する報酬設計のほぼ普遍的な欠陥を明らかにする。
最後に、将来の研究者がADの報酬関数を設計するのに役立つ有望な方向を探る。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - Affordance-Guided Reinforcement Learning via Visual Prompting [51.361977466993345]
Keypoint-based Affordance Guidance for Improvements (KAGI) は、視覚言語モデル(VLM)によって形成される報酬を自律的なRLに活用する手法である。
自然言語記述によって指定された実世界の操作タスクにおいて、KAGIは自律的なRLのサンプル効率を改善し、20Kのオンライン微調整ステップでタスク完了を成功させる。
論文 参考訳(メタデータ) (2024-07-14T21:41:29Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Self-Refined Large Language Model as Automated Reward Function Designer
for Deep Reinforcement Learning in Robotics [14.773498542408264]
大規模言語モデル(LLM)は、深い常識の知識を必要とするタスクに対応するために広く採用されている。
本稿では,自動報酬関数設計のための自己補充機構を備えた新しいLLMフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T02:56:56Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。