論文の概要: Model-Based Reinforcement Learning in Discrete-Action Non-Markovian Reward Decision Processes
- arxiv url: http://arxiv.org/abs/2512.14617v1
- Date: Tue, 16 Dec 2025 17:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.814611
- Title: Model-Based Reinforcement Learning in Discrete-Action Non-Markovian Reward Decision Processes
- Title(参考訳): 離散作用非マルコフ逆数決定過程におけるモデルに基づく強化学習
- Authors: Alessandro Trapasso, Luca Iocchi, Fabio Patrizi,
- Abstract要約: 本稿では,非マルコフ的報酬処理から報酬機によるマルコフ遷移学習を分解する離散NMRDPのための新しいモデルベースアルゴリズムを提案する。
本手法を,複雑性が増大する環境における最新のモデルベースRL手法と実験的に比較した。
- 参考スコア(独自算出の注目度): 46.91576262410701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many practical decision-making problems involve tasks whose success depends on the entire system history, rather than on achieving a state with desired properties. Markovian Reinforcement Learning (RL) approaches are not suitable for such tasks, while RL with non-Markovian reward decision processes (NMRDPs) enables agents to tackle temporal-dependency tasks. This approach has long been known to lack formal guarantees on both (near-)optimality and sample efficiency. We contribute to solving both issues with QR-MAX, a novel model-based algorithm for discrete NMRDPs that factorizes Markovian transition learning from non-Markovian reward handling via reward machines. To the best of our knowledge, this is the first model-based RL algorithm for discrete-action NMRDPs that exploits this factorization to obtain PAC convergence to $\varepsilon$-optimal policies with polynomial sample complexity. We then extend QR-MAX to continuous state spaces with Bucket-QR-MAX, a SimHash-based discretiser that preserves the same factorized structure and achieves fast and stable learning without manual gridding or function approximation. We experimentally compare our method with modern state-of-the-art model-based RL approaches on environments of increasing complexity, showing a significant improvement in sample efficiency and increased robustness in finding optimal policies.
- Abstract(参考訳): 多くの実践的な意思決定問題は、望ましい特性を持つ状態を達成するのではなく、システムの歴史全体に依存するタスクを含む。
マルコフ強化学習(RL)アプローチはそのようなタスクには適さないが、非マルコフ報酬決定プロセス(NMRDP)を持つRLでは、エージェントが時間依存タスクに取り組むことができる。
このアプローチは、(ほぼ)最適性とサンプル効率の両方に関する正式な保証を欠いていることが長年知られている。
我々は、非マルコフ報酬処理から報酬機によるマルコフ遷移学習を分解する離散NMRDPのための新しいモデルベースアルゴリズムであるQR-MAXを用いて、両方の問題を解決することに貢献する。
我々の知る限り、これは離散作用NMRDPのための最初のモデルベースRLアルゴリズムであり、この分解を利用して多項式サンプル複雑性を持つ$\varepsilon$-optimal PolicyにPAC収束を得る。
次に、同じ分解構造を保持し、手動の格子や関数近似を使わずに高速で安定した学習を実現するSimHashベースの離散器であるBucket-QR-MAXを用いて、QR-MAXを連続状態空間に拡張する。
提案手法と最新のモデルベースRL手法を,複雑性が増大する環境において比較し,サンプル効率の大幅な向上と最適ポリシーの確立におけるロバスト性の向上を示した。
関連論文リスト
- Latent Guided Sampling for Combinatorial Optimization [3.636090511738153]
最近の組合せ最適化手法は、深層学習を利用して解法戦略を学習し、監視学習または強化学習(RL)を通して訓練されている。
有望ではあるが、これらのアプローチは多くの場合、タスク固有の拡張に依存し、配布外のインスタンスではパフォーマンスが悪く、堅牢な推論機構が欠如している。
本稿では,効率的な問題インスタンスを条件づけた新しい潜在空間モデルLGS-Netを提案するとともに,効率的なニューラル推論手法であるLatent Guided Sampling(LGS)を提案する。
論文 参考訳(メタデータ) (2025-06-04T08:02:59Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Distributionally Robust Model-based Reinforcement Learning with Large
State Spaces [55.14361269378122]
強化学習における3つの大きな課題は、大きな状態空間を持つ複雑な力学系、コストのかかるデータ取得プロセス、トレーニング環境の展開から現実の力学を逸脱させることである。
広範に用いられているKullback-Leibler, chi-square, および全変分不確実性集合の下で, 連続状態空間を持つ分布ロバストなマルコフ決定過程について検討した。
本稿では,ガウス過程と最大分散削減アルゴリズムを用いて,多出力名目遷移力学を効率的に学習するモデルベースアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-05T13:42:11Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - On Practical Robust Reinforcement Learning: Practical Uncertainty Set
and Double-Agent Algorithm [11.748284119769039]
ロバスト強化学習(RRL)は、マルコフ決定プロセス(MDP)の不確実性に対して最悪のケースパフォーマンスを最適化するための堅牢なポリシーを求めることを目的としている。
論文 参考訳(メタデータ) (2023-05-11T08:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。