論文の概要: Pitfalls of learning a reward function online
- arxiv url: http://arxiv.org/abs/2004.13654v1
- Date: Tue, 28 Apr 2020 16:58:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 23:19:19.110219
- Title: Pitfalls of learning a reward function online
- Title(参考訳): オンライン報酬機能学習の落とし穴
- Authors: Stuart Armstrong and Jan Leike and Laurent Orseau and Shane Legg
- Abstract要約: 我々は、エージェントが報酬関数を学習し、同時にそれを最適化する連続的な(一生の)学習アプローチを考える。
これは、学習プロセスを一方向に意図的に操作するなど、いくつかの落とし穴が伴っている。
影響のないプロセスが自動的に制限不能であることを示し、可能環境の集合が十分にリッチであれば、その逆も真であることを示す。
- 参考スコア(独自算出の注目度): 28.2272248328398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In some agent designs like inverse reinforcement learning an agent needs to
learn its own reward function. Learning the reward function and optimising for
it are typically two different processes, usually performed at different
stages. We consider a continual (``one life'') learning approach where the
agent both learns the reward function and optimises for it at the same time. We
show that this comes with a number of pitfalls, such as deliberately
manipulating the learning process in one direction, refusing to learn,
``learning'' facts already known to the agent, and making decisions that are
strictly dominated (for all relevant reward functions). We formally introduce
two desirable properties: the first is `unriggability', which prevents the
agent from steering the learning process in the direction of a reward function
that is easier to optimise. The second is `uninfluenceability', whereby the
reward-function learning process operates by learning facts about the
environment. We show that an uninfluenceable process is automatically
unriggable, and if the set of possible environments is sufficiently rich, the
converse is true too.
- Abstract(参考訳): 逆強化学習のようなエージェント設計では、エージェントは独自の報酬関数を学ぶ必要がある。
報酬関数の学習と最適化は通常2つの異なるプロセスであり、通常は異なるステージで実行される。
我々は、エージェントが報酬関数を学習し、同時にそれを最適化する連続的な( ``one life'')学習アプローチを考える。
例えば、学習プロセスを一方向に意図的に操作すること、学習を拒否すること、エージェントがすでに知っている「学習」の事実、(すべての関連する報酬関数に対して)厳格に支配される決定を行うことである。
1つは‘unriggability’であり、エージェントが最適化が容易な報酬関数の方向に学習プロセスを制御できないようにする。
2つ目は'uninfluenceability'であり、報酬関数学習プロセスは環境に関する事実を学習することによって行われる。
インフルエンスブルなプロセスは自動的に解き放たれず、可能な環境の集合が十分に豊かであれば、逆もまた真であることを示す。
関連論文リスト
- Multi Task Inverse Reinforcement Learning for Common Sense Reward [21.145179791929337]
エージェントの訓練に成功しても、逆強化学習は有用な報酬関数を学習しないことを示す。
すなわち、学習した報酬で新しいエージェントを訓練しても、望ましい振る舞いを損なうことはない。
すなわち、多タスク逆強化学習を応用して、有用な報酬関数を学習することができる。
論文 参考訳(メタデータ) (2024-02-17T19:49:00Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Curious Exploration and Return-based Memory Restoration for Deep
Reinforcement Learning [2.3226893628361682]
本稿では,バイナリ成功/障害報酬関数を用いて,単一エージェントの目標達成のためのトレーニングに焦点をあてる。
提案手法は,かなり複雑な状態と動作空間を有する環境でエージェントを訓練するために利用できる。
論文 参考訳(メタデータ) (2021-05-02T16:01:34Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Understanding Learned Reward Functions [6.714172005695389]
学習報酬関数の解釈手法を検討する。
特に、障害モードを特定し、報酬関数の堅牢性を予測するために、サリペンシーメソッドを適用します。
学習報酬関数は、環境の偶発的な側面に依存する驚くべきアルゴリズムをしばしば実装する。
論文 参考訳(メタデータ) (2020-12-10T18:19:48Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z) - Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。
私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文 参考訳(メタデータ) (2020-02-12T19:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。