論文の概要: Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs
- arxiv url: http://arxiv.org/abs/2301.12950v1
- Date: Mon, 30 Jan 2023 14:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:13:10.947956
- Title: Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs
- Title(参考訳): 学習によるプログラム構成による階層型プログラム強化学習
- Authors: Guan-Ting Liu, En-Pei Hu, Pu-Jen Cheng, Hung-Yi Lee, Shao-Hua Sun
- Abstract要約: 本稿では,プログラムの組込み空間を学習し,事前生成したプログラムデータセットから多様なプログラムをパラメータ化する手法を提案する。
励ましの結果にもかかわらず、LEAPSが生成できるプログラムポリシーはプログラムデータセットの分布によって制限される。
本稿では,学習プログラム埋め込み空間からサンプル化した一連のプログラムを構成するメタ政治の学習を提案する。
- 参考スコア(独自算出の注目度): 58.94569213396991
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aiming to produce reinforcement learning (RL) policies that are
human-interpretable and can generalize better to novel scenarios, Trivedi et
al. (2021) present a method (LEAPS) that first learns a program embedding space
to continuously parameterize diverse programs from a pre-generated program
dataset, and then searches for a task-solving program in the learned program
embedding space when given a task. Despite encouraging results, the program
policies that LEAPS can produce are limited by the distribution of the program
dataset. Furthermore, during searching, LEAPS evaluates each candidate program
solely based on its return, failing to precisely reward correct parts of
programs and penalize incorrect parts. To address these issues, we propose to
learn a meta-policy that composes a series of programs sampled from the learned
program embedding space. By composing programs, our proposed method can produce
program policies that describe out-of-distributionally complex behaviors and
directly assign credits to programs that induce desired behaviors. We design
and conduct extensive experiments in the Karel domain. The experimental results
show that our proposed framework outperforms baselines. The ablation studies
confirm the limitations of LEAPS and justify our design choices.
- Abstract(参考訳): Trivedi et al. (2021)は、人間に解釈可能な強化学習(RL)ポリシーを作成することを目的として、まずプログラム埋め込み空間を学習し、事前に生成されたプログラムデータセットから多様なプログラムを継続的にパラメータ化し、タスクが与えられた時に学習プログラム埋め込み空間内のタスク解決プログラムを探索する手法(LEAPS)を提案する。
励ましの結果にもかかわらず、LEAPSが生成できるプログラムポリシーはプログラムデータセットの分布によって制限される。
さらに、探索中、LEAPSは各候補プログラムのリターンのみに基づいて評価し、プログラムの正しい部分を正確に報酬し、不正部分を罰することができない。
これらの問題に対処するために,学習プログラム埋め込み空間からサンプル化された一連のプログラムを構成するメタ政治の学習を提案する。
提案手法は,プログラムを構成することで,分布外の複雑な振る舞いを記述したプログラムポリシーを作成し,所望の振る舞いを誘導するプログラムに直接クレジットを割り当てる。
我々はkarelドメインで広範な実験を設計、実施する。
実験の結果,提案フレームワークがベースラインを上回ることがわかった。
アブレーション研究はLEAPSの限界を確認し、我々の設計選択を正当化する。
関連論文リスト
- Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - Synthesizing Programmatic Reinforcement Learning Policies with Large Language Model Guided Search [7.769411917500852]
LLM誘導検索フレームワーク(LLM-GS)について紹介する。
我々の重要な洞察は、LLMのプログラミングの専門知識と常識推論を活用して、仮定不要でランダムな探索手法の効率を高めることである。
本研究では,プログラム探索空間を効率的に探索し,一貫したプログラムを改善するための探索アルゴリズムであるSchduled Hill Climbingを開発した。
論文 参考訳(メタデータ) (2024-05-26T06:33:48Z) - $\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis [39.742755916373284]
プログラム合成は、問題仕様から正確で実行可能なプログラムを作成することを目的としている。
最近の研究は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用している。
我々の研究は価値ベースのアプローチの実現可能性を探究し、$mathcalB$-Coderの開発につながります。
論文 参考訳(メタデータ) (2023-10-04T21:40:36Z) - ANPL: Towards Natural Programming with Interactive Decomposition [33.58825633046242]
我々は,ユーザが常に生成したコードを洗練できるように,対話型ANPLシステムを導入する。
ANPLプログラムは、それが満たさなければならない入力出力のセットで構成される。
ユーザは、スケッチを変更し、穴を記述するのに使用される言語を変更したり、特定の穴に追加の入力出力を提供することで、ANPLプログラムを更新する。
論文 参考訳(メタデータ) (2023-05-29T14:19:40Z) - GPT is becoming a Turing machine: Here are some ways to program it [16.169056235216576]
GPT-3モデルはループを含むプログラムを実行するために起動可能であることを示す。
1つのタスクの例をカバーすることさえできないプロンプトが、アルゴリズム的な振る舞いをトリガーできることを示します。
論文 参考訳(メタデータ) (2023-03-25T00:43:41Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z) - Learning to Synthesize Programs as Interpretable and Generalizable
Policies [25.258598215642067]
本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-31T07:03:06Z) - Learning from Executions for Semantic Parsing [86.94309120789396]
注釈付きデータの限られた量が利用できる半教師付き学習の課題に焦点をあてる。
ラベルなし発話に対する実行可能プログラムを提案する。
論文 参考訳(メタデータ) (2021-04-12T21:07:53Z) - The ILASP system for Inductive Learning of Answer Set Programs [79.41112438865386]
我々のシステムは、通常の規則、選択規則、厳しい制約を含むアンサーセットプログラムを学習する。
まず、ILASPの学習フレームワークとその機能の概要を説明します。
続いて、ILASPシステムの進化を概観する。
論文 参考訳(メタデータ) (2020-05-02T19:04:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。