論文の概要: Solving General-Utility Markov Decision Processes in the Single-Trial Regime with Online Planning
- arxiv url: http://arxiv.org/abs/2505.15782v1
- Date: Wed, 21 May 2025 17:32:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.80588
- Title: Solving General-Utility Markov Decision Processes in the Single-Trial Regime with Online Planning
- Title(参考訳): オンライン計画による単一ルールレジームにおける汎用マルコフ決定過程の解法
- Authors: Pedro P. Santos, Alberto Sardinha, Francisco S. Melo,
- Abstract要約: 我々は, 単審制における無限水平割引型汎用マルコフ決定過程(GUMDP)の解法を最初に提案する。
本稿では,特にモンテカルロ木探索アルゴリズムを用いて,GUMDPを単一審理体制で解く方法を紹介する。
- 参考スコア(独自算出の注目度): 3.8779763612314633
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we contribute the first approach to solve infinite-horizon discounted general-utility Markov decision processes (GUMDPs) in the single-trial regime, i.e., when the agent's performance is evaluated based on a single trajectory. First, we provide some fundamental results regarding policy optimization in the single-trial regime, investigating which class of policies suffices for optimality, casting our problem as a particular MDP that is equivalent to our original problem, as well as studying the computational hardness of policy optimization in the single-trial regime. Second, we show how we can leverage online planning techniques, in particular a Monte-Carlo tree search algorithm, to solve GUMDPs in the single-trial regime. Third, we provide experimental results showcasing the superior performance of our approach in comparison to relevant baselines.
- Abstract(参考訳): 本研究では, エージェントの性能が単一軌跡に基づいて評価された場合, 単一審理体制における無限水平割引型汎用マルコフ決定過程(GUMDP)の解法として初めて貢献する。
まず, 単一審理体制における政策最適化に関する基本的な結果を提供し, どの政策が最適性に相応しいかを考察し, 従来の問題に匹敵する特定のMDPとして問題を提起するとともに, 単一審理体制における政策最適化の計算困難性について検討する。
第2に,オンライン計画手法,特にモンテカルロ木探索アルゴリズムを用いて,GUMDPを単一審理体制で解く方法を示す。
第3に,本手法の優れた性能を示す実験結果について,関連するベースラインと比較した。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Surpassing legacy approaches to PWR core reload optimization with single-objective Reinforcement learning [0.0]
単目的および多目的の最適化のための深層強化学習(DRL)に基づく手法を開発した。
本稿では、PPO(Proximal Policy Optimization)を用いて、RLに基づくアプローチの利点を実証する。
PPOは学習可能なウェイトを持つポリシーで検索機能を適応し、グローバル検索とローカル検索の両方として機能する。
論文 参考訳(メタデータ) (2024-02-16T19:35:58Z) - A Policy Gradient Primal-Dual Algorithm for Constrained MDPs with Uniform PAC Guarantees [28.974797385513263]
オンラインマルコフ制約決定過程(CMDP)に対する原始二重強化学習(RL)アルゴリズムについて検討する。
本稿では,一様に近似した正当性(Uniform-PAC)を保証し,最適ポリシへの収束,サブ線形後悔,任意の目標精度に対するサンプル複雑性を同時に確保する,新しいポリシー勾配PDアルゴリズムを提案する。
特に、これはオンラインCMDP問題に対する最初のUniform-PACアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-31T12:23:24Z) - Provably Efficient UCB-type Algorithms For Learning Predictive State
Representations [55.00359893021461]
逐次決定問題は、予測状態表現(PSR)によってモデル化された低ランク構造が認められる場合、統計的に学習可能である
本稿では,推定モデルと実モデル間の全変動距離を上限とする新しいボーナス項を特徴とする,PSRに対する最初のUCB型アプローチを提案する。
PSRに対する既存のアプローチとは対照的に、UCB型アルゴリズムは計算的トラクタビリティ、最優先の準最適ポリシー、モデルの精度が保証される。
論文 参考訳(メタデータ) (2023-07-01T18:35:21Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。