論文の概要: Assisted Robust Reward Design
- arxiv url: http://arxiv.org/abs/2111.09884v1
- Date: Thu, 18 Nov 2021 18:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 13:53:06.508998
- Title: Assisted Robust Reward Design
- Title(参考訳): ロバスト報酬設計を支援する
- Authors: Jerry Zhi-Yang He, Anca D. Dragan
- Abstract要約: 実際には、報酬デザインは反復的なプロセスであり、デザイナーは報酬を選択し、最終的には報酬が間違った行動にインセンティブを与え、報酬を修正し、繰り返す「エッジケース」環境に遭遇する。
我々は,ロボットが与えられた報酬を受け取らず,むしろ不確実性を持ち,将来の設計の繰り返しを将来の証拠として考慮することを提案する。
本研究では,この手法を簡易な自律運転タスクでテストし,現在の報酬に対して「エッジケース」である環境を提案することにより,保留環境における自動車の挙動をより迅速に改善することを確認する。
- 参考スコア(独自算出の注目度): 33.55440481096258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-world robotic tasks require complex reward functions. When we define the
problem the robot needs to solve, we pretend that a designer specifies this
complex reward exactly, and it is set in stone from then on. In practice,
however, reward design is an iterative process: the designer chooses a reward,
eventually encounters an "edge-case" environment where the reward incentivizes
the wrong behavior, revises the reward, and repeats. What would it mean to
rethink robotics problems to formally account for this iterative nature of
reward design? We propose that the robot not take the specified reward for
granted, but rather have uncertainty about it, and account for the future
design iterations as future evidence. We contribute an Assisted Reward Design
method that speeds up the design process by anticipating and influencing this
future evidence: rather than letting the designer eventually encounter failure
cases and revise the reward then, the method actively exposes the designer to
such environments during the development phase. We test this method in a
simplified autonomous driving task and find that it more quickly improves the
car's behavior in held-out environments by proposing environments that are
"edge cases" for the current reward.
- Abstract(参考訳): 現実世界のロボットは複雑な報酬関数を必要とする。
ロボットが解決すべき問題を定義するとき、設計者がこの複雑な報酬を正確に指定したふりをして、その後は石にセットする。
しかし、実際には報酬設計は反復的なプロセスであり、デザイナーは報酬を選択し、最終的には報酬が間違った行動にインセンティブを与え、報酬を改訂し、繰り返し繰り返す「エッジケース」環境に遭遇する。
ロボット工学の問題を再考して、報酬デザインの反復的な性質を正式に説明することは何を意味するのだろうか?
我々は,ロボットが与えられた報酬を当然受け取らず,その不確実性を有し,将来の設計イテレーションを将来の証拠として考慮することを提案する。
我々は,設計者が最終的に失敗事例に遭遇し,その報酬を修正させる代わりに,開発段階で積極的に設計者をそのような環境に露出させることによって,設計プロセスを高速化する補助的報酬設計手法を提案する。
本研究では,この手法を簡易な自律運転タスクでテストし,現在の報酬に対して「エッジケース」である環境を提案することにより,保留環境における自動車の挙動をより迅速に改善することを確認する。
関連論文リスト
- Sample-Efficient Curriculum Reinforcement Learning for Complex Reward Functions [5.78463306498655]
強化学習(Reinforcement Learning, RL)は制御問題において有望であるが, 複雑な報酬関数と制約によって生じる複雑性によって, その実践的応用が妨げられることが多い。
本稿では,経験を適応的にサンプリングするフレキシブルなリプレイバッファと組み合わさった,新しい2段階報酬カリキュラムを提案する。
われわれのアプローチは、まず報酬のサブセットについて学び、それから完全な報酬に移行し、エージェントは目的と制約の間のトレードオフを学ぶことができる。
論文 参考訳(メタデータ) (2024-10-22T08:07:44Z) - Synthesis of Reward Machines for Multi-Agent Equilibrium Design (Full Version) [2.2099217573031678]
報酬機として知られる動的インセンティブ構造を用いた平衡設計の問題点を考察する。
設計者の目標を最適化する方法で報酬を割り当てる動的インセンティブを表現するために、報酬マシンをどのように利用できるかを示す。
我々は,NPオラクルを備えたチューリングマシンを用いて,両問題を時間内に解くことができることを示す。
論文 参考訳(メタデータ) (2024-08-19T15:17:58Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft [88.80684763462384]
本稿では,Large Language Models (LLMs) を利用して高密度報酬関数を自動設計する,Auto MC-Rewardという高度な学習システムを提案する。
実験では、Minecraftの複雑なタスクにおいて、エージェントの成功率と学習効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:58:12Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Automatic Reward Design via Learning Motivation-Consistent Intrinsic
Rewards [46.068337522093096]
報酬の最大化という基本的な目標を捉えたモチベーションの概念を導入する。
提案手法は, 遅延報酬, 探索, 信用代入といった問題に対処する上で, 最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-29T14:52:02Z) - Programmatic Reward Design by Example [7.188571996124112]
不特定または不設計の報酬は、低いサンプル効率と望ましくない振る舞いをもたらす可能性がある。
本稿では,強化学習環境における報酬関数の特定にプログラムを用いることで,テキストプログラミングによる報酬設計を提案する。
本論文の主な貢献は,有能なデモンストレーションから最適なプログラム報酬関数を推定できる確率的フレームワークである。
論文 参考訳(メタデータ) (2021-12-14T05:46:24Z) - Reward (Mis)design for Autonomous Driving [89.2504219865973]
報酬関数の欠陥を特定するための簡易な正当性チェックを8つ開発した。
このチェックは、自動運転のための強化学習に関する過去の研究から得られる報酬機能に適用される。
将来の研究者がADの報酬関数を設計するのに役立つ有望な方向を探ります。
論文 参考訳(メタデータ) (2021-04-28T17:41:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。