論文の概要: Universal Policies for Software-Defined MDPs
- arxiv url: http://arxiv.org/abs/2012.11401v1
- Date: Mon, 21 Dec 2020 15:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:24:23.266419
- Title: Universal Policies for Software-Defined MDPs
- Title(参考訳): ソフトウェア定義mdpのためのユニバーサルポリシー
- Authors: Daniel Selsam, Jesse Michael Han, Leonardo de Moura, Patrice Godefroid
- Abstract要約: 我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。
我々は,何百もの合成タスクにおけるメタラーニングによるゼロショット指導の可能性を示す。
- 参考スコア(独自算出の注目度): 4.760079434948198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new programming paradigm called oracle-guided decision
programming in which a program specifies a Markov Decision Process (MDP) and
the language provides a universal policy. We prototype a new programming
language, Dodona, that manifests this paradigm using a primitive 'choose'
representing nondeterministic choice. The Dodona interpreter returns either a
value or a choicepoint that includes a lossless encoding of all information
necessary in principle to make an optimal decision. Meta-interpreters query
Dodona's (neural) oracle on these choicepoints to get policy and value
estimates, which they can use to perform heuristic search on the underlying
MDP. We demonstrate Dodona's potential for zero-shot heuristic guidance by
meta-learning over hundreds of synthetic tasks that simulate basic operations
over lists, trees, Church datastructures, polynomials, first-order terms and
higher-order terms.
- Abstract(参考訳): 我々は,プログラムがマルコフ決定プロセス(MDP)を規定し,言語が普遍的なポリシーを提供する,オラクル誘導決定プログラミングと呼ばれる新しいプログラミングパラダイムを導入する。
我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。
dodonaインタプリタは、最適な決定を行うために必要なすべての情報のロスレスエンコーディングを含む値または選択ポイントのどちらかを返す。
メタインタプリタは、これらの選択ポイント上のDodonaの(神経)託宣をクエリして、ポリシーと価値の推定値を取得し、基礎となるMDPのヒューリスティック検索を実行するために使用できる。
リスト,木,教会データ構造,多項式,一階項および高階項上の基本的な操作をシミュレートする何百もの合成タスクをメタラーニングすることで,ドドーナのゼロショットヒューリスティックな指導の可能性を示す。
関連論文リスト
- Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP [1.8262547855491456]
連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。
本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-16T17:45:38Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - RLang: A Declarative Language for Describing Partial World Knowledge to
Reinforcement Learning Agents [21.87523364315568]
ドメイン知識をRLエージェントに伝達するドメイン固有言語であるRLangを紹介する。
我々はRLangの正確な構文と意味を定義し、RLangプログラムをアルゴリズムに依存しないテクスチャの世界モデルとポリシーに基盤付けるマルコフを提供する。
本稿では、RLangプログラムの例を示し、異なるRLメソッドが結果の知識をどのように活用できるかを示す。
論文 参考訳(メタデータ) (2022-08-12T18:20:47Z) - Recursive Reinforcement Learning [4.429642479975602]
再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。
我々はマルコフ決定プロセスの集合として記述された環境における最適ポリシーを計算できるRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-23T00:29:42Z) - A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。
私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。
本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文 参考訳(メタデータ) (2022-03-25T06:55:15Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Multi-modal Program Inference: a Marriage of Pre-trainedLanguage Models
and Component-based Synthesis [15.427687814482724]
マルチモーダルプログラム合成(マルチモーダルプログラムせき、英: Multi-modal program synthesis)とは、プログラム(コード)を異なる形式で指定した仕様から合成するタスクである。
例は正確だが不完全な仕様を提供し、自然言語は曖昧だがより「完全」なタスク記述を提供する。
2つのプログラミング領域に対するマルチモーダル合成システムのインスタンス化に,我々の組み合わせアプローチを用いる。
論文 参考訳(メタデータ) (2021-09-03T16:12:04Z) - How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。
本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文 参考訳(メタデータ) (2021-05-10T12:21:42Z) - Iterative Bounding MDPs: Learning Interpretable Policies via
Non-Interpretable Methods [37.553463240629135]
説明可能な強化学習における現在の作業は、一般に、状態空間上の決定木という形でポリシーを生成する。
反復的境界 MDP (IBMDPs) の決定木政策を学習するための新しいマルコフ決定プロセス (MDP) 型を提案する。
IBMDPはベースMDPを中心に構築されるので、各IBMDPポリシーは、メソッドに依存しないマスキング手順を使用する場合、ベースMDPの決定ツリーポリシーに対応することが保証される。
論文 参考訳(メタデータ) (2021-02-25T17:55:15Z) - Representing Partial Programs with Blended Abstract Semantics [62.20775388513027]
プログラム合成エンジンにおける部分的なプログラム表現手法について紹介する。
モジュラーニューラルネットワークとして実装された近似実行モデルを学ぶ。
これらのハイブリッドニューロシンボリック表現は、実行誘導型シンセサイザーがより強力な言語構成を使うことができることを示す。
論文 参考訳(メタデータ) (2020-12-23T20:40:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。