Fugu-MT 論文翻訳(概要): Learning General Policies from Small Examples Without Supervision

論文の概要: Learning General Policies from Small Examples Without Supervision

arxiv url: http://arxiv.org/abs/2101.00692v2
Date: Wed, 17 Feb 2021 19:52:39 GMT
ステータス: 翻訳完了
システム内更新日: 2021-04-12 11:38:38.249411
Title: Learning General Policies from Small Examples Without Supervision
Title（参考訳）: スーパービジョンのない小さな事例から一般政策を学ぶ
Authors: Guillem Franc\`es, Blai Bonet, Hector Geffner
Abstract要約: 一般化計画は、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものです。近年、これらのポリシーは2つのステップで計算可能であることが示されている。まず、定性的数値計画問題(QNP)の形で適切な抽象化をサンプル計画から学習する。本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。
参考スコア（独自算出の注目度）: 18.718037284357834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalized planning is concerned with the computation of general policies that solve multiple instances of a planning domain all at once. It has been recently shown that these policies can be computed in two steps: first, a suitable abstraction in the form of a qualitative numerical planning problem (QNP) is learned from sample plans, then the general policies are obtained from the learned QNP using a planner. In this work, we introduce an alternative approach for computing more expressive general policies which does not require sample plans or a QNP planner. The new formulation is very simple and can be cast in terms that are more standard in machine learning: a large but finite pool of features is defined from the predicates in the planning examples using a general grammar, and a small subset of features is sought for separating "good" from "bad" state transitions, and goals from non-goals. The problems of finding such a "separating surface" while labeling the transitions as "good" or "bad" are jointly addressed as a single combinatorial optimization problem expressed as a Weighted Max-SAT problem. The advantage of looking for the simplest policy in the given feature space that solves the given examples, possibly non-optimally, is that many domains have no general, compact policies that are optimal. The approach yields general policies for a number of benchmark domains.
Abstract（参考訳）: 汎用計画とは、計画ドメインの複数のインスタンスを一度に解決する一般的なポリシーの計算に関するものである。まず, 定性的数値計画問題 (QNP) の形で適切な抽象化をサンプル計画から学習し, 一般政策はプランナーを用いて学習したQNPから得られる。本稿では,サンプルプランやqnpプランナーを必要とせず,より表現力のある汎用ポリシーを計算するための代替手法を提案する。新しい定式化は非常に単純で、機械学習でより標準的な言葉でキャスティングできる: 一般的な文法を用いて、計画例の述語から大きくて有限な特徴のプールが定義され、"良い"と"悪い"状態遷移とゴールを非ゴールから分離するために、機能の小さなサブセットが求められている。このような「分離面」を「良い」あるいは「悪い」とラベル付けしながら発見する問題は、重み付き最大SAT問題として表される単一の組合せ最適化問題として共同で解決される。与えられた例(おそらくは最適でない)を解決するような与えられた特徴空間において最も単純なポリシーを探す利点は、多くの領域が最適である一般的でコンパクトなポリシーを持たないことである。このアプローチは多くのベンチマークドメインに対して一般的なポリシーをもたらす。

関連論文リスト

Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Explainable Finite-Memory Policies for Partially Observable Markov Decision Processes [1.0499611180329806]
部分観測可能なマルコフ決定プロセス(POMDP)は、不確実性と部分観測可能性の下での意思決定の基本的なフレームワークである。我々は、(i)解釈可能な形式主義と(ii)典型的にはより小さいサイズの両方において、そのようなポリシーの表現を提供し、より高い説明可能性をもたらす。
論文参考訳（メタデータ） (2024-11-20T14:42:23Z)
Parallel Strategies for Best-First Generalized Planning [51.713634067802104]
汎用計画(GP)は、複数の古典的な計画インスタンスを解くことができるアルゴリズムのようなソリューションの自動合成を研究するAIの研究分野である。現在の進歩の1つはBest-First Generalized Planning (BFGP) の導入である。本稿では,並列探索手法をBFGPに適用し,性能ギャップを埋める上で重要な要素であることを示す。
論文参考訳（メタデータ） (2024-07-31T09:50:22Z)
Last-Iterate Convergent Policy Gradient Primal-Dual Methods for Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文参考訳（メタデータ） (2023-06-20T17:27:31Z)
Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文参考訳（メタデータ） (2023-03-16T09:37:10Z)
Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文参考訳（メタデータ） (2022-12-19T22:43:08Z)
Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文参考訳（メタデータ） (2022-08-17T18:49:53Z)
Learning Generalized Policies Without Supervision Using GNNs [20.322992960599255]
グラフニューラルネットワークを用いた古典的計画領域の一般政策学習の問題点を考察する。我々は,単純で汎用的なGNNアーキテクチャを用いて,鮮明な実験結果を得ることを目的としている。我々は、GNNの表現力と一階述語論理の$C_2$フラグメントの間に確立された関係を利用する。
論文参考訳（メタデータ） (2022-05-12T10:28:46Z)
Preliminary Results on Using Abstract AND-OR Graphs for Generalized Solving of Stochastic Shortest Path Problems [25.152899734616298]
最短経路問題(SSP)は、現実世界におけるゴール指向の問題である。 SSPの計算における重要な課題は、適度な大きさの問題を難解に解決する方法を見つけることである。提案手法は任意のSSPソルバに組み込んで階層的最適ポリシーを計算可能であることを示す。
論文参考訳（メタデータ） (2022-04-08T21:30:47Z)
Expressing and Exploiting the Common Subgoal Structure of Classical Planning Domains Using Sketches: Extended Version [17.63517562327928]
我々は、Bornt と Geffner が最近導入したポリシースケッチと呼ばれる問題分解を表現するために、単純だが強力な言語を使用します。ポリシースケッチRは、Booleanと数値的特徴のセットと、これらの特徴の値がどのように変化するかを表現するスケッチルールのセットで構成される。本稿では,SIW_Rアルゴリズムを用いて,SIWで解けない多くの計画領域を短時間で解けることを示す。
論文参考訳（メタデータ） (2021-05-10T10:36:18Z)
Adaptive Sampling for Best Policy Identification in Markov Decision Processes [79.4957965474334]
本稿では,学習者が生成モデルにアクセスできる場合の,割引マルコフ決定(MDP)における最良の政治的識別の問題について検討する。最先端アルゴリズムの利点を論じ、解説する。
論文参考訳（メタデータ） (2020-09-28T15:22:24Z)
Strengthening Deterministic Policies for POMDPs [5.092711491848192]
我々は、時間論理制約の形で洗練された仕様をサポートする新しいMILP符号化を提供する。我々は、メモリベースの決定を包含するために、POMDPの事前処理を採用する。提案手法の利点は, 計算的トラクタビリティを損なうことなく, 簡単な決定論的政策を強化する柔軟性と, 任意に多くの仕様の証明可能な満足度を強制する能力である。
論文参考訳（メタデータ） (2020-07-16T14:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。