Fugu-MT 論文翻訳(概要): Useful Policy Invariant Shaping from Arbitrary Advice

論文の概要: Useful Policy Invariant Shaping from Arbitrary Advice

arxiv url: http://arxiv.org/abs/2011.01297v1
Date: Mon, 2 Nov 2020 20:29:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 11:02:27.229377
Title: Useful Policy Invariant Shaping from Arbitrary Advice
Title（参考訳）: 任意のアドバイスから有用な方針不変形作法
Authors: Paniz Behboudian, Yash Satsangi, Matthew E. Taylor, Anna Harutyunyan, Michael Bowling
Abstract要約: RL研究の大きな課題は、少ないデータで学習する方法を見つけることである。可能性に基づく報酬形成 (PBRS) は約束があるが、十分に定義されたポテンシャル関数の必要性によって制限される。最近導入された動的電位ベースのアドバイス(DPBA)メソッドは、人間や他のエージェントからの任意のアドバイスを認めることで、この問題に対処する。
参考スコア（独自算出の注目度）: 24.59807772487328
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning is a powerful learning paradigm in which agents can learn to maximize sparse and delayed reward signals. Although RL has had many impressive successes in complex domains, learning can take hours, days, or even years of training data. A major challenge of contemporary RL research is to discover how to learn with less data. Previous work has shown that domain information can be successfully used to shape the reward; by adding additional reward information, the agent can learn with much less data. Furthermore, if the reward is constructed from a potential function, the optimal policy is guaranteed to be unaltered. While such potential-based reward shaping (PBRS) holds promise, it is limited by the need for a well-defined potential function. Ideally, we would like to be able to take arbitrary advice from a human or other agent and improve performance without affecting the optimal policy. The recently introduced dynamic potential based advice (DPBA) method tackles this challenge by admitting arbitrary advice from a human or other agent and improves performance without affecting the optimal policy. The main contribution of this paper is to expose, theoretically and empirically, a flaw in DPBA. Alternatively, to achieve the ideal goals, we present a simple method called policy invariant explicit shaping (PIES) and show theoretically and empirically that PIES succeeds where DPBA fails.
Abstract（参考訳）: 強化学習は、エージェントがスパースと遅延報酬信号を最大化するために学習できる強力な学習パラダイムである。 rlは複雑なドメインで多くの素晴らしい成功を収めていますが、学習には数時間、日、さらには何年ものトレーニングデータが必要です。現代のRL研究の大きな課題は、少ないデータで学習する方法を見つけることである。以前の研究では、ドメイン情報は報酬を形作るのにうまく使えることを示しており、追加の報酬情報を追加することで、エージェントはより少ないデータで学習することができる。さらに、潜在的関数から報酬が構成された場合、最適ポリシーは変更されないことが保証される。このようなポテンシャルに基づく報酬形成(PBRS)は約束を保っているが、十分に定義されたポテンシャル関数の必要性によって制限されている。理想的には、最適なポリシーに影響を与えることなく、人間や他のエージェントから任意のアドバイスを受け、パフォーマンスを改善したいと思っています。最近導入されたdynamic potential based advice (dpba)法は、人間や他のエージェントからの任意のアドバイスを認め、最適なポリシーに影響を与えずにパフォーマンスを向上させることで、この課題に対処している。本論文の主な貢献は,理論上,実証的にdpbaの欠陥を明らかにすることである。あるいは、理想的な目標を達成するために、政策不変な明示的整形(PIES)と呼ばれる簡単な方法を提案し、理論上、実証的に、PIESがDPBAが失敗した場合に成功することを示す。

関連論文リスト

Can RLHF be More Efficient with Imperfect Reward Models? A Policy Coverage Perspective [31.956232187102465]
本稿では,オンラインRLHFにおける不完全な報酬モデルから知識を伝達する方法を検討する。本稿では,従来のオンライン学習と比較して,新しい伝達学習原理と証明可能な利点を持つ理論的アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-02-26T16:03:06Z)
Improving the Effectiveness of Potential-Based Reward Shaping in Reinforcement Learning [0.5524804393257919]
報酬形成の有効性を向上させるために,ポテンシャル関数の線形シフトがいかに簡単なかを示す。正および負の報酬形成値を正しく割り当てるための連続ポテンシャル関数の理論的制限を示す。
論文参考訳（メタデータ） (2025-02-03T12:32:50Z)
Hindsight PRIORs for Reward Learning from Human Preferences [3.4990427823966828]
嗜好に基づく強化学習(PbRL)では、政策行動に対する嗜好フィードバックから報酬を学習することで報酬関数を手渡す必要がなくなる。 PbRLへの現在のアプローチは、行動のどの部分が優先に最も寄与しているかを決定することに固有の信用割当問題に対処しない。我々は、世界モデルを用いて軌道内の状態重要度を近似し、報酬を国家重要度に比例するように誘導する信用割当戦略(Hindsight PRIOR)を導入する。
論文参考訳（メタデータ） (2024-04-12T21:59:42Z)
Distributional Successor Features Enable Zero-Shot Policy Optimization [36.53356539916603]
本研究は、ゼロショットポリシー最適化のための分散継承機能(DiSPO)という、新しいモデルのクラスを提案する。 DiSPOは、定常データセットの行動ポリシーの後継機能の分布と、データセット内で達成可能な異なる後継機能を実現するためのポリシーを学ぶ。データセットの長期的な結果を直接モデル化することにより、DiSPOは、報酬関数をまたいだゼロショットポリシー最適化のための単純なスキームを実現しつつ、複雑なエラーを避けることができる。
論文参考訳（メタデータ） (2024-03-10T22:27:21Z)
Adversarial Policy Optimization in Deep Reinforcement Learning [16.999444076456268]
ディープニューラルネットワークで表されるポリシーは過度に適合し、強化学習エージェントが効果的なポリシーを学ぶのを妨げます。データ拡張は、オーバーフィッティングの効果を軽減し、RLエージェントのパフォーマンスを高めることができる。本稿では、上記の問題を緩和し、学習ポリシーの効率を向上させるための新しいRLアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-04-27T21:01:08Z)
Flexible Attention-Based Multi-Policy Fusion for Efficient Deep Reinforcement Learning [78.31888150539258]
強化学習(RL)エージェントは、長い間、人間の学習の効率にアプローチしようとしてきた。 RLにおける以前の研究は、エージェントがサンプル効率を改善するために外部知識ポリシーを取り入れていた。我々は,複数の知識ポリシーを融合させたRLパラダイムであるKGRL(Knowledge-Grounded RL)について述べる。
論文参考訳（メタデータ） (2022-10-07T17:56:57Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:25:22Z)
Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文参考訳（メタデータ） (2021-06-11T16:49:15Z)
Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。 SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文参考訳（メタデータ） (2021-06-10T06:29:59Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。