Fugu-MT 論文翻訳(概要): Universal Policies for Software-Defined MDPs

論文の概要: Universal Policies for Software-Defined MDPs

arxiv url: http://arxiv.org/abs/2012.11401v1
Date: Mon, 21 Dec 2020 15:04:06 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-27 06:24:23.266419
Title: Universal Policies for Software-Defined MDPs
Title（参考訳）: ソフトウェア定義mdpのためのユニバーサルポリシー
Authors: Daniel Selsam, Jesse Michael Han, Leonardo de Moura, Patrice Godefroid
Abstract要約: 我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。我々は,何百もの合成タスクにおけるメタラーニングによるゼロショット指導の可能性を示す。
参考スコア（独自算出の注目度）: 4.760079434948198
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce a new programming paradigm called oracle-guided decision programming in which a program specifies a Markov Decision Process (MDP) and the language provides a universal policy. We prototype a new programming language, Dodona, that manifests this paradigm using a primitive 'choose' representing nondeterministic choice. The Dodona interpreter returns either a value or a choicepoint that includes a lossless encoding of all information necessary in principle to make an optimal decision. Meta-interpreters query Dodona's (neural) oracle on these choicepoints to get policy and value estimates, which they can use to perform heuristic search on the underlying MDP. We demonstrate Dodona's potential for zero-shot heuristic guidance by meta-learning over hundreds of synthetic tasks that simulate basic operations over lists, trees, Church datastructures, polynomials, first-order terms and higher-order terms.
Abstract（参考訳）: 我々は,プログラムがマルコフ決定プロセス(MDP)を規定し,言語が普遍的なポリシーを提供する,オラクル誘導決定プログラミングと呼ばれる新しいプログラミングパラダイムを導入する。我々は,非決定論的選択を表すプリミティブな 'choose' を用いて,このパラダイムを表わす新しいプログラミング言語 dodona を試作した。 dodonaインタプリタは、最適な決定を行うために必要なすべての情報のロスレスエンコーディングを含む値または選択ポイントのどちらかを返す。メタインタプリタは、これらの選択ポイント上のDodonaの(神経)託宣をクエリして、ポリシーと価値の推定値を取得し、基礎となるMDPのヒューリスティック検索を実行するために使用できる。リスト,木,教会データ構造,多項式,一階項および高階項上の基本的な操作をシミュレートする何百もの合成タスクをメタラーニングすることで,ドドーナのゼロショットヒューリスティックな指導の可能性を示す。

関連論文リスト

MDP Geometry, Normalization and Reward Balancing Solvers [15.627546283580166]
マルコフ決定過程(英: Markov Decision Process、MDP)は、シーケンシャルな意思決定問題の数学的モデルである。本稿では, 自然正規化手順によるMDPの幾何学的解釈を新たに提案する。これにより, 任意の政策に対する行動の利点を変えることなく, それぞれの状態における値関数を調整できる。
論文参考訳（メタデータ） (2024-07-09T09:39:45Z)
Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。 LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文参考訳（メタデータ） (2024-06-25T02:18:15Z)
Tackling Decision Processes with Non-Cumulative Objectives using Reinforcement Learning [0.0]
我々は,非累積マルコフ決定過程を標準MDPに一般化したマッピングを導入する。これにより、MDPがより大規模なNCMDPに直接適用されるための最適なポリシーを見つけるために開発されたすべての技術が利用可能となる。我々は、古典的な制御、金融におけるポートフォリオ最適化、離散最適化問題など、様々なタスクのアプリケーションを示す。
論文参考訳（メタデータ） (2024-05-22T13:01:37Z)
DECIDER: A Dual-System Rule-Controllable Decoding Framework for Language Generation [57.07295906718989]
制約付き復号法は,事前学習言語モデル(PLM)が生成するテキストの意味やスタイルを,推論中に特定のターゲット語を用いて制御することを目的としている。我々は, PLM を制御するためのタスクの完了方法に関するルールをプログラムできる新しい復号化フレームワーク DECIDER を提案する。
論文参考訳（メタデータ） (2024-03-04T11:49:08Z)
Exploring Large Language Model for Graph Data Understanding in Online Job Recommendations [63.19448893196642]
本稿では,大規模言語モデルが提供するリッチな文脈情報と意味表現を利用して行動グラフを解析する新しいフレームワークを提案する。この機能を利用することで、個々のユーザに対してパーソナライズされた、正確なジョブレコメンデーションが可能になる。
論文参考訳（メタデータ） (2023-07-10T11:29:41Z)
Reinforcement Learning for Omega-Regular Specifications on Continuous-Time MDP [1.8262547855491456]
連続時間マルコフ決定過程 (Continuous-time Markov decision process, CTMDP) は、密度時間環境下でのシーケンシャルな意思決定を表現する標準モデルである。本稿では,CTMDPに対するスカラー報酬信号への正しい翻訳を可能にするアプローチを提案する。
論文参考訳（メタデータ） (2023-03-16T17:45:38Z)
PADL: Language-Directed Physics-Based Character Control [66.517142635815]
本稿では,文字が行うべきハイレベルなタスクと低レベルなスキルを指定するために,ユーザが自然言語コマンドを発行できるようにするPADLを提案する。我々は,シミュレーションされたヒューマノイドキャラクタを効果的に誘導し,多種多様な複雑な運動能力を実現するために,本フレームワークを適用した。
論文参考訳（メタデータ） (2023-01-31T18:59:22Z)
RLang: A Declarative Language for Describing Partial World Knowledge to Reinforcement Learning Agents [21.87523364315568]
ドメイン知識をRLエージェントに伝達するドメイン固有言語であるRLangを紹介する。我々はRLangの正確な構文と意味を定義し、RLangプログラムをアルゴリズムに依存しないテクスチャの世界モデルとポリシーに基盤付けるマルコフを提供する。本稿では、RLangプログラムの例を示し、異なるRLメソッドが結果の知識をどのように活用できるかを示す。
論文参考訳（メタデータ） (2022-08-12T18:20:47Z)
Recursive Reinforcement Learning [4.429642479975602]
再帰は、潜在的無限のオブジェクトを有限に記述する基本的なパラダイムである。我々はマルコフ決定プロセスの集合として記述された環境における最適ポリシーを計算できるRLアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-06-23T00:29:42Z)
A Conversational Paradigm for Program Synthesis [110.94409515865867]
本稿では,大規模言語モデルを用いた対話型プログラム合成手法を提案する。私たちは、自然言語とプログラミング言語のデータに基づいて、CodeGenと呼ばれる大規模な言語モデルのファミリーを訓練します。本研究は,会話能力の出現と,提案した会話プログラム合成パラダイムの有効性を示すものである。
論文参考訳（メタデータ） (2022-03-25T06:55:15Z)
Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文参考訳（メタデータ） (2022-02-03T18:55:52Z)
Multi-modal Program Inference: a Marriage of Pre-trainedLanguage Models and Component-based Synthesis [15.427687814482724]
マルチモーダルプログラム合成(マルチモーダルプログラムせき、英: Multi-modal program synthesis)とは、プログラム(コード)を異なる形式で指定した仕様から合成するタスクである。例は正確だが不完全な仕様を提供し、自然言語は曖昧だがより「完全」なタスク記述を提供する。 2つのプログラミング領域に対するマルチモーダル合成システムのインスタンス化に,我々の組み合わせアプローチを用いる。
論文参考訳（メタデータ） (2021-09-03T16:12:04Z)
How could Neural Networks understand Programs? [67.4217527949013]
ソースコードにnlpプリトレーニング技術を直接適用するか、あるいはtheshelfによってモデルに機能を追加するかで、プログラムをより理解するためのモデルを構築するのは難しい。本研究では,(1)操作セマンティクスの基本操作とよく一致する表現と(2)環境遷移の情報からなる情報から,モデルが学ぶべき新しいプログラムセマンティクス学習パラダイムを提案する。
論文参考訳（メタデータ） (2021-05-10T12:21:42Z)
Iterative Bounding MDPs: Learning Interpretable Policies via Non-Interpretable Methods [37.553463240629135]
説明可能な強化学習における現在の作業は、一般に、状態空間上の決定木という形でポリシーを生成する。反復的境界 MDP (IBMDPs) の決定木政策を学習するための新しいマルコフ決定プロセス (MDP) 型を提案する。 IBMDPはベースMDPを中心に構築されるので、各IBMDPポリシーは、メソッドに依存しないマスキング手順を使用する場合、ベースMDPの決定ツリーポリシーに対応することが保証される。
論文参考訳（メタデータ） (2021-02-25T17:55:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。