論文の概要: Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning
- arxiv url: http://arxiv.org/abs/2604.14974v1
- Date: Thu, 16 Apr 2026 13:07:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.909253
- Title: Blazing the trails before beating the path: Sample-efficient Monte-Carlo planning
- Title(参考訳): 道を打つ前に道のブレーキ:モンテカルロ-モンテカルロ計画
- Authors: Jean-Bastien Grill, Michal Valko, Rémi Munos,
- Abstract要約: あなたはロボットで、意思決定プロセス(MDP)に生きており、状態-アクションから次の状態への有限または無限の遷移がある。
幸いなことに、ロビーはモンテカルロの計画を立てるための生成モデルを備えています。
計画が効率的で、サンプル効率が良い。実際、準最適政策に従うことで到達可能な州のサブセットを探索することで、自民党の構造を活用したい。
- 参考スコア(独自算出の注目度): 28.994787715086872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: You are a robot and you live in a Markov decision process (MDP) with a finite or an infinite number of transitions from state-action to next states. You got brains and so you plan before you act. Luckily, your roboparents equipped you with a generative model to do some Monte-Carlo planning. The world is waiting for you and you have no time to waste. You want your planning to be efficient. Sample-efficient. Indeed, you want to exploit the possible structure of the MDP by exploring only a subset of states reachable by following near-optimal policies. You want guarantees on sample complexity that depend on a measure of the quantity of near-optimal states. You want something, that is an extension of Monte-Carlo sampling (for estimating an expectation) to problems that alternate maximization (over actions) and expectation (over next states). But you do not want to StOP with exponential running time, you want something simple to implement and computationally efficient. You want it all and you want it now. You want TrailBlazer.
- Abstract(参考訳): あなたはロボットで、マルコフ決定プロセス(MDP)に生きており、状態-アクションから次の状態への有限または無限の遷移がある。
頭脳があり、行動する前に計画を立てる。
幸いなことに、ロビーはモンテカルロの計画を立てるための生成モデルを備えています。
世界はあなたを待っていて、無駄な時間はありません。
あなたは自分の計画が効率的でいてほしい。
サンプル効率。
実際には、準最適政策に従うことで到達可能な州のサブセットのみを探索することで、MDPの可能な構造を利用したいのです。
ほぼ最適状態の量の尺度に依存する、サンプルの複雑さに関する保証が欲しい。
モンテカルロサンプリング(期待を推定する)を、(行動よりも)最大化と(次の状態よりも)期待を交互に行う問題に拡張したいものです。
しかし、指数関数的な実行時間でStOPをしたいとは思いません。
あなたはそれをすべて欲しがるし、今それを欲しがる。
TrailBlazerがほしい。
関連論文リスト
- Map-World: Masked Action planning and Path-Integral World Model for Autonomous Driving [35.521279875146526]
Masked Action Planning (MAP)モジュールは、将来のエゴ運動をマスクされたシーケンス完了として扱う。
軽量世界モデルは、各候補軌道に条件付き将来のBEVセマンティクスをロールアウトする。
NAVSIMでは,提案手法はアンカーベースアプローチと一致し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-11-25T10:30:26Z) - Reinforcement Learning from Adversarial Preferences in Tabular MDPs [62.73758165845971]
我々は,敵対的嗜好を持つエピソードマルコフ決定プロセス(MDP)の新たな枠組みを導入する。
PbMDP では、標準的なエピソード MDP とは異なり、学習者は2つの候補アーム間の好みを観察する。
我々は、既知遷移の下で、T2/3$という残差境界を達成するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2025-07-15T20:19:32Z) - Learning Logic Specifications for Soft Policy Guidance in POMCP [71.69251176275638]
部分観測可能なモンテカルロ計画(POMCP)は部分観測可能なマルコフ決定過程(POMDP)の効率的な解法である
POMCPはスパース報酬機能、すなわち最終ゴールに達するときのみ得られる報酬に悩まされる。
本稿では,POMCP実行のトレースから論理仕様を学習するために帰納的論理プログラミングを用いる。
論文 参考訳(メタデータ) (2023-03-16T09:37:10Z) - Nearly Optimal Latent State Decoding in Block MDPs [74.51224067640717]
エピソードブロック MDP では、意思決定者は少数の潜在状態から生成される豊富な観測やコンテキストにアクセスすることができる。
まず、固定動作ポリシーに基づいて生成されたデータに基づいて、潜時状態復号関数を推定することに興味がある。
次に、報酬のないフレームワークにおいて、最適に近いポリシーを学習する問題について研究する。
論文 参考訳(メタデータ) (2022-08-17T18:49:53Z) - Correct-by-construction reach-avoid control of partially observable
linear stochastic systems [7.912008109232803]
離散時間線形時間不変系のリーチエイド制御のための頑健なフィードバックコントローラを定式化する。
問題は、必要となる証明状態の抽象化問題を満たすコントローラを計算することである。
論文 参考訳(メタデータ) (2021-03-03T13:46:52Z) - Fine-Grained Gap-Dependent Bounds for Tabular MDPs via Adaptive
Multi-Step Bootstrap [84.66885506098724]
本稿では,アダプティブ・マルチステップ・ブートストラップ (AMB) を用いた表層有限水平マルコフ決定過程 (MDP) のモデルフリーアルゴリズムを提案する。
AMBは,部分最適ギャップの逆の和でのみスケールする,ギャップ依存的後悔境界を達成できることを示す。
また、AMB は $frac|Z_mul|Delta_min$ regret という追加の $frac|Z_mul|Delta_min$ を被っていることも示しています。
論文 参考訳(メタデータ) (2021-02-09T07:46:34Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z) - Exponential Lower Bounds for Planning in MDPs With Linearly-Realizable
Optimal Action-Value Functions [3.2980012891975754]
固定水平および割引マルコフ決定過程における地域計画の問題点を考察する。
我々は、任意のサウンドプランナーが少なくとも$min(exp(Omega(d)), Omega(2H))$サンプルをfized-horizon設定で、$exp(Omega(d))$サンプルを割引設定でクエリする必要があることを示す。
論文 参考訳(メタデータ) (2020-10-03T15:19:26Z) - Efficient Planning in Large MDPs with Weak Linear Function Approximation [4.56877715768796]
大規模意思決定プロセス(MDP)は、MDPの状態を独立して計画アルゴリズムを必要とする。
線形値関数近似を用いたMDPの計画問題を考える。
論文 参考訳(メタデータ) (2020-07-13T04:40:41Z) - POLY-HOOT: Monte-Carlo Planning in Continuous Space MDPs with
Non-Asymptotic Analysis [24.373900721120286]
連続的な状態-作用空間を持つ環境でのモンテカルロ計画を考える。
我々は,モンテカルロ計画に連続的な武装バンディット戦略を付加するアルゴリズムであるPoly-HOOTを紹介する。
非定常バンディット問題において,HOOアルゴリズムが拡張されたことを初めて後悔する。
論文 参考訳(メタデータ) (2020-06-08T15:23:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。