論文の概要: Programmatic Policy Extraction by Iterative Local Search
- arxiv url: http://arxiv.org/abs/2201.06863v1
- Date: Tue, 18 Jan 2022 10:39:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 22:05:32.566853
- Title: Programmatic Policy Extraction by Iterative Local Search
- Title(参考訳): 反復的局所探索によるプログラムポリシー抽出
- Authors: Rasmus Larsen, Mikkel N{\o}rgaard Schmidt
- Abstract要約: 本稿では,事前学習したニューラルポリシーからプログラムポリシーを抽出するための,単純かつ直接的なアプローチを提案する。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
- 参考スコア(独自算出の注目度): 0.15229257192293197
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reinforcement learning policies are often represented by neural networks, but
programmatic policies are preferred in some cases because they are more
interpretable, amenable to formal verification, or generalize better. While
efficient algorithms for learning neural policies exist, learning programmatic
policies is challenging. Combining imitation-projection and dataset aggregation
with a local search heuristic, we present a simple and direct approach to
extracting a programmatic policy from a pretrained neural policy. After
examining our local search heuristic on a programming by example problem, we
demonstrate our programmatic policy extraction method on a pendulum swing-up
problem. Both when trained using a hand crafted expert policy and a learned
neural policy, our method discovers simple and interpretable policies that
perform almost as well as the original.
- Abstract(参考訳): 強化学習ポリシーはニューラルネットワークで表されることが多いが、プログラム的なポリシーは、より解釈可能で、形式的検証に適しており、より一般化しやすい場合が多い。
神経ポリシーを学習するための効率的なアルゴリズムは存在するが、プログラム的ポリシーの学習は困難である。
模擬射影とデータセットアグリゲーションと局所探索ヒューリスティックを組み合わせることで,事前学習されたニューラルポリシーからプログラム的ポリシーを抽出する,単純かつ直接的なアプローチを提案する。
プログラミングにおける局所探索ヒューリスティックを例題として検討した後,振り子揺らぎ問題に対するプログラム的ポリシー抽出法を実証した。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
関連論文リスト
- Language-Conditioned Semantic Search-Based Policy for Robotic
Manipulation Tasks [2.1332830068386217]
言語条件のセマンティックサーチに基づくオンラインサーチベースのポリシーを作成する手法を提案する。
提案手法は,CALVINベンチマークのベースライン性能を超越し,ゼロショット適応性能が向上する。
論文 参考訳(メタデータ) (2023-12-10T16:17:00Z) - Synthesizing Programmatic Policies with Actor-Critic Algorithms and ReLU
Networks [20.2777559515384]
PIRL(Programmaticly Interpretable Reinforcement Learning)は、人間が読めるコンピュータプログラムのポリシーを符号化する。
本稿では,プログラムポリシーを符号化する言語によって,PIRL固有のアルゴリズムは不要であることを示す。
我々は、ReLUニューラルネットワークと斜め決定木との接続を用いて、アクター批判アルゴリズムで学んだポリシーをプログラムポリシーに変換する。
論文 参考訳(メタデータ) (2023-08-04T22:17:32Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Continuous Action Reinforcement Learning from a Mixture of Interpretable
Experts [35.80418547105711]
本稿では,複雑な関数近似を内部値予測に保持するポリシスキームを提案する。
この論文の主な技術的貢献は、この非微分不可能な状態選択手順によってもたらされた課題に対処することである。
論文 参考訳(メタデータ) (2020-06-10T16:02:08Z) - Guided Uncertainty-Aware Policy Optimization: Combining Learning and
Model-Based Strategies for Sample-Efficient Policy Learning [75.56839075060819]
従来のロボットのアプローチは、環境の正確なモデル、タスクの実行方法の詳細な説明、現在の状態を追跡するための堅牢な認識システムに依存している。
強化学習アプローチは、タスクを記述するための報酬信号だけで、生の感覚入力から直接操作することができるが、非常にサンプル非効率で脆弱である。
本研究では,ロボットの知覚・運動パイプラインにおける不正確さを克服できる一般的な手法を得るために,モデルに基づく手法の強みと学習に基づく手法の柔軟性を組み合わせる。
論文 参考訳(メタデータ) (2020-05-21T19:47:05Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Policy Evaluation Networks [50.53250641051648]
我々は,簡潔な埋め込みにおいて重要なポリシー情報を保持できる,スケーラブルで差別化可能なフィンガープリント機構を導入する。
実験の結果、これらの3つの要素を組み合わせることで、トレーニングデータを生成するものよりも優れたポリシーを作成できることが示された。
論文 参考訳(メタデータ) (2020-02-26T23:00:27Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。