論文の概要: Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.15589v1
- Date: Mon, 28 Nov 2022 17:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:56:06.572835
- Title: Inapplicable Actions Learning for Knowledge Transfer in Reinforcement
Learning
- Title(参考訳): 強化学習における知識伝達のための不適用行動学習
- Authors: Leo Ardon, Alberto Pozanco, Daniel Borrajo, Sumitra Ganesh
- Abstract要約: 学習不可能な動作がアルゴリズムのサンプル効率を大幅に向上させることを示す。
得られた知識の伝達性のおかげで、学習プロセスをより効率的にするために、他のタスクで再利用することができる。
- 参考スコア(独自算出の注目度): 3.194414753332705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) algorithms are known to scale poorly to
environments with many available actions, requiring numerous samples to learn
an optimal policy. The traditional approach of considering the same fixed
action space in every possible state implies that the agent must understand,
while also learning to maximize its reward, to ignore irrelevant actions such
as $\textit{inapplicable actions}$ (i.e. actions that have no effect on the
environment when performed in a given state). Knowing this information can help
reduce the sample complexity of RL algorithms by masking the inapplicable
actions from the policy distribution to only explore actions relevant to
finding an optimal policy. This is typically done in an ad-hoc manner with
hand-crafted domain logic added to the RL algorithm. In this paper, we propose
a more systematic approach to introduce this knowledge into the algorithm. We
(i) standardize the way knowledge can be manually specified to the agent; and
(ii) present a new framework to autonomously learn these state-dependent action
constraints jointly with the policy. We show experimentally that learning
inapplicable actions greatly improves the sample efficiency of the algorithm by
providing a reliable signal to mask out irrelevant actions. Moreover, we
demonstrate that thanks to the transferability of the knowledge acquired, it
can be reused in other tasks to make the learning process more efficient.
- Abstract(参考訳): 強化学習(rl)アルゴリズムは、利用可能なアクションがたくさんある環境ではスケールが悪く、最適なポリシーを学ぶために多数のサンプルを必要とすることが知られている。
あらゆる可能な状態において同じ固定されたアクション空間を考える伝統的なアプローチは、エージェントが、その報酬を最大化するためにも、$\textit{inapplicable actions}$のような無関係なアクション(つまり、与えられた状態において実行された環境に影響を与えないアクション)を無視しなければならないことを意味する。
この情報を知ることで、ポリシー分布から適用不可能なアクションを隠蔽し、最適なポリシーを見つけるためのアクションのみを探索することで、RLアルゴリズムのサンプルの複雑さを低減することができる。
これは通常、RLアルゴリズムに手作りのドメインロジックを追加してアドホックな方法で行われる。
本稿では,この知識をアルゴリズムに導入するためのより体系的な手法を提案する。
私たち
(i) エージェントに対して知識を手動で指定する方法を標準化すること。
(II)政策と協調してこれらの国家依存的行動制約を自律的に学習する新しい枠組みを提案する。
本研究では,学習不可能な動作が,無関係な動作を隠蔽する信頼性の高い信号を提供することにより,アルゴリズムのサンプル効率を大幅に向上することを示す。
さらに,取得した知識の伝達性により,学習プロセスを効率化するために他のタスクで再利用できることを実証する。
関連論文リスト
- How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Learning impartial policies for sequential counterfactual explanations
using Deep Reinforcement Learning [0.0]
近年,SCFの発見政策を学習し,拡張性を高めるための強化学習法が提案されている。
本研究では,特定の行動に対する偏見など,望ましくない特性を持つポリシーを生じるような既存手法の欠点を同定する。
この効果を緩和するために,分類器の出力確率を用いてより情報的な報酬を生成することを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:50:47Z) - Large Language Models can Implement Policy Iteration [18.424558160071808]
In-Context Policy Iterationは、基礎モデルを用いてReinforcement Learning(RL)を実行するアルゴリズムである。
ICPIは、専門家によるデモンストレーションやグラデーションなしでRLタスクを実行することを学ぶ。
ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。
論文 参考訳(メタデータ) (2022-10-07T21:18:22Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - The Information Geometry of Unsupervised Reinforcement Learning [133.20816939521941]
教師なしスキル発見(英語: Unsupervised skill discovery)とは、報酬関数にアクセスせずに一連のポリシーを学ぶアルゴリズムのクラスである。
教師なしのスキル発見アルゴリズムは、あらゆる報酬関数に最適なスキルを学習しないことを示す。
論文 参考訳(メタデータ) (2021-10-06T13:08:36Z) - Deep RL With Information Constrained Policies: Generalization in
Continuous Control [21.46148507577606]
情報フローに対する自然な制約は, 連続制御タスクにおいて, 人工エージェントに干渉する可能性があることを示す。
CLAC(Capacity-Limited Actor-Critic)アルゴリズムを実装した。
実験の結果、CLACは代替手法と比較して、トレーニング環境と修正テスト環境の一般化に改善をもたらすことがわかった。
論文 参考訳(メタデータ) (2020-10-09T15:42:21Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Off-Policy Adversarial Inverse Reinforcement Learning [0.0]
Adversarial Imitation Learning (AIL)は、強化学習(RL)におけるアルゴリズムのクラスである。
本稿では, サンプル効率が良く, 模倣性能も良好であるOff-policy-AIRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-03T16:51:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。