論文の概要: Universal Policies for Software-Defined MDPs
- arxiv url: http://arxiv.org/abs/2012.11401v1
- Date: Mon, 21 Dec 2020 15:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:24:23.266419
- Title: Universal Policies for Software-Defined MDPs
- Title(参考訳): ソフトウェア定義mdpのためのユニバーサルポリシー
- Authors: Daniel Selsam, Jesse Michael Han, Leonardo de Moura, Patrice Godefroid
- Abstract要約: 我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。
我々は,何百もの合成タスクにおけるメタラーニングによるゼロショット指導の可能性を示す。
- 参考スコア(独自算出の注目度): 4.760079434948198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a new programming paradigm called oracle-guided decision
programming in which a program specifies a Markov Decision Process (MDP) and
the language provides a universal policy. We prototype a new programming
language, Dodona, that manifests this paradigm using a primitive 'choose'
representing nondeterministic choice. The Dodona interpreter returns either a
value or a choicepoint that includes a lossless encoding of all information
necessary in principle to make an optimal decision. Meta-interpreters query
Dodona's (neural) oracle on these choicepoints to get policy and value
estimates, which they can use to perform heuristic search on the underlying
MDP. We demonstrate Dodona's potential for zero-shot heuristic guidance by
meta-learning over hundreds of synthetic tasks that simulate basic operations
over lists, trees, Church datastructures, polynomials, first-order terms and
higher-order terms.
- Abstract(参考訳): 我々は,プログラムがマルコフ決定プロセス(MDP)を規定し,言語が普遍的なポリシーを提供する,オラクル誘導決定プログラミングと呼ばれる新しいプログラミングパラダイムを導入する。
我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。
dodonaインタプリタは、最適な決定を行うために必要なすべての情報のロスレスエンコーディングを含む値または選択ポイントのどちらかを返す。
メタインタプリタは、これらの選択ポイント上のDodonaの(神経)託宣をクエリして、ポリシーと価値の推定値を取得し、基礎となるMDPのヒューリスティック検索を実行するために使用できる。
リスト,木,教会データ構造,多項式,一階項および高階項上の基本的な操作をシミュレートする何百もの合成タスクをメタラーニングすることで,ドドーナのゼロショットヒューリスティックな指導の可能性を示す。
関連論文リスト
- MDP Geometry, Normalization and Reward Balancing Solvers [15.627546283580166]
マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。
本稿では, 自然正規化手順によるMDPの幾何学的解釈を新たに提案する。これにより, 任意の政策に対する行動の利点を変えることなく, それぞれの状態における値関数を調整できる。
論文 参考訳(メタデータ) (2024-07-09T09:39:45Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning [0.0]
我々は,非累積マルコフ決定過程を標準MDPに一般化したマッピングを導入する。
これにより、MDPがより大規模なNCMDPに直接適用されるための最適なポリシーを見つけるために開発されたすべての技術が利用可能となる。
我々は、古典的な制御、金融におけるポートフォリオ最適化、離散最適化問題など、様々なタスクのアプリケーションを示す。
論文 参考訳(メタデータ) (2024-05-22T13:01:37Z) - DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前学習言語モデル(PLM)が生成するテキストの意味やスタイルを,推論中に特定のターゲット語を用いて制御することを目的としている。
我々は, PLM を制御するためのタスクの完了方法に関するルールをプログラムできる新しい復号化フレームワーク DECIDER を提案する。
論文 参考訳(メタデータ) (2024-03-04T11:49:08Z) - Exploring Large Language Model for Graph Data Understanding in Online
Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。
この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文 参考訳(メタデータ) (2023-07-10T11:29:41Z) - Reinforcement Learning for Omega-Regular Specifications on
Continuous-Time MDP [1.8262547855491456]
連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。
本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2023-03-16T17:45:38Z) - PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。
我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文 参考訳(メタデータ) (2023-01-31T18:59:22Z) - Recursive Reinforcement Learning [4.429642479975602]
再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。
我々はマルコフ決定プロセスの集合として記述された環境における最適ポリシーを計算できるRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-23T00:29:42Z) - A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。
私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。
本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文 参考訳(メタデータ) (2022-03-25T06:55:15Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Iterative Bounding MDPs: Learning Interpretable Policies via
Non-Interpretable Methods [37.553463240629135]
説明可能な強化学習における現在の作業は、一般に、状態空間上の決定木という形でポリシーを生成する。
反復的境界 MDP (IBMDPs) の決定木政策を学習するための新しいマルコフ決定プロセス (MDP) 型を提案する。
IBMDPはベースMDPを中心に構築されるので、各IBMDPポリシーは、メソッドに依存しないマスキング手順を使用する場合、ベースMDPの決定ツリーポリシーに対応することが保証される。
論文 参考訳(メタデータ) (2021-02-25T17:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。