論文の概要: Learning to Synthesize Programs as Interpretable and Generalizable
Policies
- arxiv url: http://arxiv.org/abs/2108.13643v1
- Date: Tue, 31 Aug 2021 07:03:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-02 01:14:50.219171
- Title: Learning to Synthesize Programs as Interpretable and Generalizable
Policies
- Title(参考訳): 解釈可能かつ一般化可能な方針としてプログラムを合成する学習
- Authors: Dweep Trivedi, Jesse Zhang, Shao-Hua Sun, Joseph J. Lim
- Abstract要約: 本稿では,プログラムの合成を学習するフレームワークについて述べる。
実験の結果,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLやプログラム合成ベースラインよりも優れていることがわかった。
- 参考スコア(独自算出の注目度): 25.258598215642067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, deep reinforcement learning (DRL) methods have achieved impressive
performance on tasks in a variety of domains. However, neural network policies
produced with DRL methods are not human-interpretable and often have difficulty
generalizing to novel scenarios. To address these issues, prior works explore
learning programmatic policies that are more interpretable and structured for
generalization. Yet, these works either employ limited policy representations
(e.g. decision trees, state machines, or predefined program templates) or
require stronger supervision (e.g. input/output state pairs or expert
demonstrations). We present a framework that instead learns to synthesize a
program, which details the procedure to solve a task in a flexible and
expressive manner, solely from reward signals. To alleviate the difficulty of
learning to compose programs to induce the desired agent behavior from scratch,
we propose to first learn a program embedding space that continuously
parameterizes diverse behaviors in an unsupervised manner and then search over
the learned program embedding space to yield a program that maximizes the
return for a given task. Experimental results demonstrate that the proposed
framework not only learns to reliably synthesize task-solving programs but also
outperforms DRL and program synthesis baselines while producing interpretable
and more generalizable policies. We also justify the necessity of the proposed
two-stage learning scheme as well as analyze various methods for learning the
program embedding.
- Abstract(参考訳): 近年,深部強化学習(DRL)法は様々な領域のタスクにおいて顕著な性能を発揮している。
しかし、DRL法で生成されたニューラルネットワークポリシーは人間解釈可能ではなく、しばしば新しいシナリオに一般化するのが困難である。
これらの問題に対処するため、先行研究は一般化のためにより解釈可能で構造化されたプログラム的ポリシーの学習を探求する。
しかし、これらの作品は限定的な政策表現(例)を採用する。
決定木、状態機械、または事前定義されたプログラムテンプレート)、またはより強い監督を必要とする(例えば、)。
入出力状態ペアまたは専門家のデモンストレーション)。
我々は,プログラムの合成を学習するフレームワークを提案する。このフレームワークは,報酬信号のみから,柔軟かつ表現力に富んだ方法でタスクを解決する手順を詳述する。
要求されるエージェント動作をスクラッチから誘導するプログラムを構成する学習の難しさを軽減すべく,まず,様々な動作を教師なしの方法で連続的にパラメータ化するプログラム埋め込み空間を学習し,学習したプログラム埋め込み空間を検索し,与えられたタスクの返却を最大化するプログラムを生成する。
実験結果から,提案フレームワークは,タスク解決プログラムを確実に合成するだけでなく,DRLとプログラム合成ベースラインに優れ,解釈可能でより一般化可能なポリシを生成する。
また,提案する2段階学習方式の必要性を正当化し,プログラム組込み学習の様々な方法を分析する。
関連論文リスト
- Program Machine Policy: Addressing Long-Horizon Tasks by Integrating
Program Synthesis and State Machines [7.159109885159399]
プログラムマシンポリシー(POMP)は、プログラムRLとステートマシンポリシーの利点を橋渡しする。
そこで本研究では,効果的で多様で互換性のあるプログラムの集合を検索する手法を提案する。
提案するフレームワークは,プログラム的RLと深いRLのベースラインを様々なタスクで上回る。
論文 参考訳(メタデータ) (2023-11-27T16:06:39Z) - $\mathcal{B}$-Coder: Value-Based Deep Reinforcement Learning for Program Synthesis [39.742755916373284]
プログラム合成は、問題仕様から正確で実行可能なプログラムを作成することを目的としている。
最近の研究は、大規模言語モデル(LLM)とともに強化学習(RL)の力を活用している。
我々の研究は価値ベースのアプローチの実現可能性を探究し、$mathcalB$-Coderの開発につながります。
論文 参考訳(メタデータ) (2023-10-04T21:40:36Z) - GPT is becoming a Turing machine: Here are some ways to program it [16.169056235216576]
GPT-3モデルはループを含むプログラムを実行するために起動可能であることを示す。
1つのタスクの例をカバーすることさえできないプロンプトが、アルゴリズム的な振る舞いをトリガーできることを示します。
論文 参考訳(メタデータ) (2023-03-25T00:43:41Z) - Hierarchical Programmatic Reinforcement Learning via Learning to Compose
Programs [58.94569213396991]
プログラムポリシーを作成するための階層型プログラム強化学習フレームワークを提案する。
提案するフレームワークは,プログラム作成の学習を通じて,アウト・オブ・ディストリビュータの複雑な動作を記述するプログラムポリシーを作成することができる。
Karel ドメインの実験結果から,提案するフレームワークがベースラインより優れていることが示された。
論文 参考訳(メタデータ) (2023-01-30T14:50:46Z) - Programmatic Policy Extraction by Iterative Local Search [0.15229257192293197]
本稿では,事前学習したニューラルポリシーからプログラムポリシーを抽出するための,単純かつ直接的なアプローチを提案する。
手作りのエキスパートポリシーと学習されたニューラルポリシーを使用してトレーニングを行うと、本手法はオリジナルとほぼ同等に機能する単純かつ解釈可能なポリシーを発見する。
論文 参考訳(メタデータ) (2022-01-18T10:39:40Z) - Procedures as Programs: Hierarchical Control of Situated Agents through
Natural Language [81.73820295186727]
エージェント命令と制御のための階層的な手続き的知識を表現する強力な手法である,プログラムとしての手続きの形式化を提案する。
NL命令に対するIQAおよびALFREDデータセット上で、このフレームワークをインスタンス化する。
論文 参考訳(メタデータ) (2021-09-16T20:36:21Z) - How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。
本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T12:21:42Z) - BUSTLE: Bottom-Up Program Synthesis Through Learning-Guided Exploration [72.88493072196094]
プログラムのボトムアップ検索に学習を活用する新しい合成手法を提案する。
特に、入力出力例のセットに基づいて、探索条件中の中間値の合成を優先順位付けするようにモデルを訓練する。
単純な教師付き学習アプローチであっても,学習とボトムアップ検索の組み合わせは極めて効果的であることを示す。
論文 参考訳(メタデータ) (2020-07-28T17:46:18Z) - Can We Learn Heuristics For Graphical Model Inference Using
Reinforcement Learning? [114.24881214319048]
我々は、強化学習を用いて、高次条件ランダム場(CRF)における推論を解くためのプログラム、すなわち、ポリシーを学習できることを示します。
本手法は,ポテンシャルの形式に制約を加えることなく,推論タスクを効率的に解く。
論文 参考訳(メタデータ) (2020-04-27T19:24:04Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。