論文の概要: Specifying Behavior Preference with Tiered Reward Functions
- arxiv url: http://arxiv.org/abs/2212.03733v1
- Date: Wed, 7 Dec 2022 15:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 15:23:51.755252
- Title: Specifying Behavior Preference with Tiered Reward Functions
- Title(参考訳): Tiered Reward関数による行動選好の特定
- Authors: Zhiyuan Zhou, Henry Sowerby, Michael L. Littman
- Abstract要約: 我々は、望ましい状態に到達し、望ましくない状態を避けるために定式化されたタスクにおける報酬-設計問題を考える。
環境に依存しない階層型報酬構造を提案する。
我々は,複数の環境における報酬関数の結合を実証的に評価し,それらが望ましい振る舞いを誘発し,学習の速さをもたらすことを示す。
- 参考スコア(独自算出の注目度): 18.032654606016447
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement-learning agents seek to maximize a reward signal through
environmental interactions. As humans, our contribution to the learning process
is through designing the reward function. Like programmers, we have a behavior
in mind and have to translate it into a formal specification, namely rewards.
In this work, we consider the reward-design problem in tasks formulated as
reaching desirable states and avoiding undesirable states. To start, we propose
a strict partial ordering of the policy space. We prefer policies that reach
the good states faster and with higher probability while avoiding the bad
states longer. Next, we propose an environment-independent tiered reward
structure and show it is guaranteed to induce policies that are Pareto-optimal
according to our preference relation. Finally, we empirically evaluate tiered
reward functions on several environments and show they induce desired behavior
and lead to fast learning.
- Abstract(参考訳): 強化学習エージェントは、環境相互作用を通じて報酬信号の最大化を試みる。
人間として、学習プロセスへの私たちの貢献は、報酬関数を設計することにあります。
プログラマのように、私たちは振る舞いを念頭に置いて、それを正式な仕様、すなわち報酬に変換する必要があります。
本研究では,望ましい状態に到達し,望ましくない状態を避けるように定式化したタスクにおける報酬設計問題を考える。
まず,政策空間の厳格な部分順序付けを提案する。
我々は、悪い状態をより長く避けながら、より早く、より高い確率で良い状態に到達する政策を好む。
次に,環境に依存しない階層型報酬構造を提案し,好意関係に応じてパレート最適の政策を導出することが保証されていることを示す。
最後に,階層化報酬関数を複数の環境において実験的に評価し,望ましい行動を誘発し,高速な学習につながることを示す。
関連論文リスト
- ROSARL: Reward-Only Safe Reinforcement Learning [11.998722332188]
強化学習における重要な問題は、環境の中でタスクを安全に解決することを学ぶエージェントを設計することである。
一般的な解決策は、人間の専門家が報酬関数のペナルティを定義するか、安全でない状態に達する際に最小化されるコストを定義することである。
これは簡単ではない、なぜなら、ペナルティが小さすぎると、安全でない状態に達するエージェントにつながるかもしれないし、ペナルティが大きすぎると収束する時間が増加するからである。
論文 参考訳(メタデータ) (2023-05-31T08:33:23Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Learning What To Do by Simulating the Past [76.86449554580291]
学習した特徴エンコーダと学習した逆モデルを組み合わせることで、エージェントが人間の行動を後方にシミュレートして、彼らがすべきことを推測できることを示す。
得られたアルゴリズムは、そのスキルに最適なポリシーから抽出された単一の状態を与えられたMuJoCo環境で特定のスキルを再現することができる。
論文 参考訳(メタデータ) (2021-04-08T17:43:29Z) - Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。
限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。
シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文 参考訳(メタデータ) (2020-12-12T20:06:15Z) - Quantifying Differences in Reward Functions [24.66221171351157]
2つの報酬関数間の差を直接定量化するために、等価・ポリティ不変比較(EPIC)距離を導入する。
EPIC は、常に同じ最適ポリシーを導出する報酬関数の同値類において不変であることを示す。
論文 参考訳(メタデータ) (2020-06-24T17:35:15Z) - oIRL: Robust Adversarial Inverse Reinforcement Learning with Temporally
Extended Actions [37.66289166905027]
与えられた環境に対する報酬関数の明示的エンジニアリングは、強化学習方法の大きな障害となっている。
本稿では,階層的不整合報酬を選択肢に対するポリシーで学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-02-20T22:21:41Z) - A New Framework for Query Efficient Active Imitation Learning [5.167794607251493]
彼の好みと目的に基づいて、報酬と安全でない状態を知っている人間の専門家がいますが、人間の専門家に問い合わせるのは高価です。
本稿では,ユーザの報酬関数のモデルと効率的なクエリを積極的かつインタラクティブに学習する,模倣学習(IL)アルゴリズムを提案する。
提案手法は、状態ベース2次元ナビゲーションタスク、ロボット制御タスク、画像ベースビデオゲームに基づいて、シミュレーションされた人間を用いて評価する。
論文 参考訳(メタデータ) (2019-12-30T18:12:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。