論文の概要: Towards a Unified Framework for Sequential Decision Making
- arxiv url: http://arxiv.org/abs/2310.02167v1
- Date: Tue, 3 Oct 2023 16:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 13:28:10.434028
- Title: Towards a Unified Framework for Sequential Decision Making
- Title(参考訳): シーケンス決定のための統一フレームワークを目指して
- Authors: Carlos N\'u\~nez-Molina, Pablo Mesejo, Juan Fern\'andez-Olivares
- Abstract要約: SDM(Sequential Decision Making)のための一般的なフレームワークを提供する。
SDMタスクをトレーニングの集合として定式化し、マルコフ決定過程(MDP)をテストする。
我々は、SDMタスクとメソッドの興味深い特性を計算するための公式とアルゴリズムのセットを導出する。
- 参考スコア(独自算出の注目度): 3.695911743333272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, the integration of Automated Planning (AP) and Reinforcement
Learning (RL) has seen a surge of interest. To perform this integration, a
general framework for Sequential Decision Making (SDM) would prove immensely
useful, as it would help us understand how AP and RL fit together. In this
preliminary work, we attempt to provide such a framework, suitable for any
method ranging from Classical Planning to Deep RL, by drawing on concepts from
Probability Theory and Bayesian inference. We formulate an SDM task as a set of
training and test Markov Decision Processes (MDPs), to account for
generalization. We provide a general algorithm for SDM which we hypothesize
every SDM method is based on. According to it, every SDM algorithm can be seen
as a procedure that iteratively improves its solution estimate by leveraging
the task knowledge available. Finally, we derive a set of formulas and
algorithms for calculating interesting properties of SDM tasks and methods,
which make possible their empirical evaluation and comparison.
- Abstract(参考訳): 近年,自動計画(AP)と強化学習(RL)の統合が注目されている。
この統合を実現するために、SDM(Sequential Decision Making)の一般的なフレームワークは、APとRLがどのように適合するかを理解するのに役立ちます。
本稿では,確率論とベイズ推論の概念を基礎として,古典的計画から深部RLまであらゆる手法に適したフレームワークの提供を試みる。
一般化のために,SDMタスクを,マルコフ決定過程(MDP)のトレーニングとテストのセットとして定式化する。
我々は、SDM法がベースとなっているすべてのSDM法を仮定する一般アルゴリズムを提案する。
それによると、全てのSDMアルゴリズムは、利用可能なタスク知識を活用することで、そのソリューション推定を反復的に改善する手順と見なすことができる。
最後に、sdmタスクとメソッドの興味深い特性を計算するための一連の式とアルゴリズムを導出し、その経験的評価と比較を可能にした。
関連論文リスト
- Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - On learning history based policies for controlling Markov decision
processes [44.17941122294582]
本稿では,MDPの制御を学習するRLアルゴリズムの動作を研究するための理論的枠組みを提案する。
本研究では,一連の連続制御タスクにおいて,その効果を数値的に評価する。
論文 参考訳(メタデータ) (2022-11-06T02:47:55Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z) - Average-Reward Learning and Planning with Options [9.258958295945467]
我々は,減算マルコフ決定過程(MDP)から平均回帰MDPまで,強化学習における時間的抽象化のためのオプションフレームワークを拡張した。
コントリビューションには、一般の外部選択型学習アルゴリズム、学習値とモデルのためのオプション内アルゴリズム、および学習アルゴリズムのサンプルベース計画亜種が含まれている。
論文 参考訳(メタデータ) (2021-10-26T16:58:05Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Model-based Reinforcement Learning: A Survey [2.564530030795554]
マルコフ決定過程 (Markov Decision Process, MDP) の最適化として一般に形式化された逐次意思決定は、人工知能において重要な課題である。
この問題の2つの主要なアプローチは強化学習(RL)と計画である。
本稿では、モデルベース強化学習として知られる両分野の統合について調査する。
論文 参考訳(メタデータ) (2020-06-30T12:10:07Z) - A Unifying Framework for Reinforcement Learning and Planning [2.564530030795554]
本稿では、強化学習計画(FRAP)のための統一的アルゴリズムフレームワークを提案する。
論文の最後には、これらの次元に沿って、よく知られたプランニング、モデルフリー、モデルベースRLアルゴリズムを比較した。
論文 参考訳(メタデータ) (2020-06-26T14:30:41Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。