論文の概要: Program Synthesis Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2102.11137v1
- Date: Mon, 22 Feb 2021 16:05:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:02:23.530768
- Title: Program Synthesis Guided Reinforcement Learning
- Title(参考訳): プログラム合成による強化学習
- Authors: Yichen Yang, Jeevana Priya Inala, Osbert Bastani, Yewen Pu, Armando
Solar-Lezama, Martin Rinard
- Abstract要約: 強化学習の鍵となる課題は、長期計画と制御問題を解決することである。
最近の研究は、これらの設定で学習アルゴリズムを導くのに役立つプログラムを活用することを提案している。
本稿では,プログラム合成を利用して指導プログラムを自動生成する手法を提案する。
- 参考スコア(独自算出の注目度): 34.342362868490525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A key challenge for reinforcement learning is solving long-horizon planning
and control problems. Recent work has proposed leveraging programs to help
guide the learning algorithm in these settings. However, these approaches
impose a high manual burden on the user since they must provide a guiding
program for every new task they seek to achieve. We propose an approach that
leverages program synthesis to automatically generate the guiding program. A
key challenge is how to handle partially observable environments. We propose
model predictive program synthesis, which trains a generative model to predict
the unobserved portions of the world, and then synthesizes a program based on
samples from this model in a way that is robust to its uncertainty. We evaluate
our approach on a set of challenging benchmarks, including a 2D
Minecraft-inspired ``craft'' environment where the agent must perform a complex
sequence of subtasks to achieve its goal, a box-world environment that requires
abstract reasoning, and a variant of the craft environment where the agent is a
MuJoCo Ant. Our approach significantly outperforms several baselines, and
performs essentially as well as an oracle that is given an effective program.
- Abstract(参考訳): 強化学習の重要な課題は、長期計画と制御問題の解決である。
最近の研究は、これらの設定で学習アルゴリズムを導くのに役立つプログラムを活用することを提案している。
しかし、これらのアプローチは、達成しようとする新しいタスクごとにガイドプログラムを提供しなければならないため、ユーザに対して高い手作業の負担を課す。
本稿では,プログラム合成を利用して指導プログラムを自動生成する手法を提案する。
重要な課題は、部分的に観察可能な環境を扱う方法だ。
本研究では,世界の未観測領域を予測するために生成モデルを訓練し,その不確実性に頑健な方法で,このモデルからのサンプルに基づいてプログラムを合成するモデル予測プログラム合成を提案する。
エージェントが目標を達成するために複雑なサブタスクを実行する必要がある2Dマインクラフトの「クラフト」環境、抽象的な推論を必要とするボックスワールド環境、エージェントがMuJoCo Antであるクラフト環境の変種など、挑戦的なベンチマークのセットに関するアプローチを評価します。
提案手法は,いくつかのベースラインを著しく上回り,効果的なプログラムを与えられる託宣と同様に,本質的には機能する。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - IPSynth: Interprocedural Program Synthesis for Software Security Implementation [3.1119394814248253]
本稿では,提案手法の仕様を自動学習する新しい言語間プログラム合成手法であるIP Synthを紹介する。
提案手法は,プログラム内の対応する箇所を正確に特定し,必要なコードスニペットを合成し,プログラムに追加し,ChatGPTをプログラム間の戦術的合成タスクで上回ることを示す。
論文 参考訳(メタデータ) (2024-03-16T07:12:24Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Synthesizing a Progression of Subtasks for Block-Based Visual
Programming Tasks [21.33708484899808]
本稿では,その複雑さの観点から,高品質で十分な空間を持つサブタスクの進行を生成する新しい合成アルゴリズムを提案する。
本稿では,Karelプログラミング環境における課題解決のためのAIエージェントの有効性向上のための合成アルゴリズムの有用性を示す。
論文 参考訳(メタデータ) (2023-05-27T16:24:36Z) - CodeRL: Mastering Code Generation through Pretrained Models and Deep
Reinforcement Learning [92.36705236706678]
CodeRLは、事前訓練されたLMと深層強化学習によるプログラム合成タスクのための新しいフレームワークである。
推論中、我々は重要なサンプリング戦略を持つ新しい生成手順を導入する。
モデルバックボーンについては,CodeT5のエンコーダデコーダアーキテクチャを拡張し,学習目標を拡張した。
論文 参考訳(メタデータ) (2022-07-05T02:42:15Z) - Learning to Find Proofs and Theorems by Learning to Refine Search
Strategies [0.9137554315375919]
AlphaZeroスタイルのエージェントは、非決定論的プログラムとして表される高度な専門家戦略を洗練するために自己学習を行っている。
類似教師エージェントは、学習者にとって適切な関連性と難易度のあるタスクを生成するための自己学習を行う。
論文 参考訳(メタデータ) (2022-05-27T20:48:40Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Outcome-Driven Reinforcement Learning via Variational Inference [95.82770132618862]
我々は、報酬を最大化する問題ではなく、望ましい結果を達成するための行動を推測する問題として、強化学習に関する新たな視点について論じる。
結果として得られる結果指向推論の問題を解決するため, 定型的報酬関数を導出する新しい変分推論定式を制定する。
我々は,この手法が報酬機能の設計を不要とし,効果的なゴール指向行動へと導くことを実証的に示す。
論文 参考訳(メタデータ) (2021-04-20T18:16:21Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。