論文の概要: Fast Non-Episodic Finite-Horizon RL with K-Step Lookahead Thresholding
- arxiv url: http://arxiv.org/abs/2602.00781v1
- Date: Sat, 31 Jan 2026 15:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.397204
- Title: Fast Non-Episodic Finite-Horizon RL with K-Step Lookahead Thresholding
- Title(参考訳): K-Step Lookahead Thresholding を用いた高速非エポゾディック有限水平RL
- Authors: Jiamin Xu, Kyra Gan,
- Abstract要約: 計画を次のKステップに切り換える K-step lookahead Q-function を導入する。
我々は報酬の最大化を目的としたアルゴリズムの性能を数値的に評価する。
実験により, 合成MDPおよびRL環境における最先端RL法よりも優れた累積報酬が得られた。
- 参考スコア(独自算出の注目度): 9.43984448422843
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Online reinforcement learning in non-episodic, finite-horizon MDPs remains underexplored and is challenged by the need to estimate returns to a fixed terminal time. Existing infinite-horizon methods, which often rely on discounted contraction, do not naturally account for this fixed-horizon structure. We introduce a modified Q-function: rather than targeting the full-horizon, we learn a K-step lookahead Q-function that truncates planning to the next K steps. To further improve sample efficiency, we introduce a thresholding mechanism: actions are selected only when their estimated K-step lookahead value exceeds a time-varying threshold. We provide an efficient tabular learning algorithm for this novel objective, proving it achieves fast finite-sample convergence: it achieves minimax optimal constant regret for $K=1$ and $\mathcal{O}(\max((K-1),C_{K-1})\sqrt{SAT\log(T)})$ regret for any $K \geq 2$. We numerically evaluate the performance of our algorithm under the objective of maximizing reward. Our implementation adaptively increases K over time, balancing lookahead depth against estimation variance. Empirical results demonstrate superior cumulative rewards over state-of-the-art tabular RL methods across synthetic MDPs and RL environments: JumpRiverswim, FrozenLake and AnyTrading.
- Abstract(参考訳): 非エポゾディックな有限水平MDPのオンライン強化学習は未探索であり、固定終端時間へのリターンを見積もる必要性に悩まされている。
既存の無限水平法は、しばしば割引された縮約に依存するが、この固定水平構造を自然に考慮しない。
修正されたQ-函数を導入する: フルホライズンを目標にするのではなく、次のKステップに計画が切り替わるKステップのルックアヘッドQ-函数を学ぶ。
サンプル効率をより高めるために,Kステップのルックアヘッド値が時間変化閾値を超える場合にのみ,動作が選択されるしきい値設定機構を導入する。
K=1$と$\mathcal{O}(\max((K-1),C_{K-1})\sqrt{SAT\log(T)})$ regret for any $K \geq 2$。
我々は報酬の最大化を目的としたアルゴリズムの性能を数値的に評価する。
我々の実装は時間とともにKを適応的に増加させ、推定分散に対するルックアヘッド深さのバランスをとる。
実験の結果,JumpRiverswim,FrozenLake,AnyTradingなど,合成MDPおよびRL環境における最先端の表層RL法よりも優れた累積報酬が得られた。
関連論文リスト
- Optimistic Reinforcement Learning with Quantile Objectives [6.759916334688207]
UCB-QRLは有限水平マルコフ決定過程における$$量子目的に対する楽観的な学習アルゴリズムである。
UCB-QRL は $mathcal Oleft((2/)H+1HsqrtSATHlog (2SATH/)right という高い確率の後悔をもたらすことを示す。
論文 参考訳(メタデータ) (2025-11-12T19:01:00Z) - Reinforcement Learning for Infinite-Horizon Average-Reward Linear MDPs via Approximation by Discounted-Reward MDPs [16.49229317664822]
線形決定過程(MDP)を用いた無限水平平均逆強化学習の問題点について検討する。
提案手法は, 平均再帰設定を割引係数で近似し, 楽観的な値反復を適用した。
論文 参考訳(メタデータ) (2024-05-23T20:58:33Z) - Nearly Minimax Optimal Regret for Learning Linear Mixture Stochastic
Shortest Path [80.60592344361073]
線形混合遷移カーネルを用いた最短経路(SSP)問題について検討する。
エージェントは繰り返し環境と対話し、累積コストを最小化しながら特定の目標状態に到達する。
既存の作業は、イテレーションコスト関数の厳密な下限や、最適ポリシーに対する期待長の上限を仮定することが多い。
論文 参考訳(メタデータ) (2024-02-14T07:52:00Z) - Provable and Practical: Efficient Exploration in Reinforcement Learning via Langevin Monte Carlo [104.9535542833054]
我々は、強化学習のためのトンプソンサンプリングに基づくスケーラブルで効果的な探索戦略を提案する。
代わりに、Langevin Monte Carlo を用いて、Q 関数をその後部分布から直接サンプリングする。
提案手法は,Atari57スイートからのいくつかの挑戦的な探索課題において,最先端の深部RLアルゴリズムと比較して,より優れた,あるいは類似した結果が得られる。
論文 参考訳(メタデータ) (2023-05-29T17:11:28Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - On the Almost Sure Convergence of Stochastic Gradient Descent in
Non-Convex Problems [75.58134963501094]
本稿では,勾配降下(SGD)の軌跡を解析する。
我々はSGDが厳格なステップサイズポリシーのために1ドルでサドルポイント/マニフォールドを避けることを示す。
論文 参考訳(メタデータ) (2020-06-19T14:11:26Z) - Regret Bounds for Discounted MDPs [26.37242007290973]
従来の知恵は、学習者が受ける平均報酬と最大長期報酬との差を最大化することである。
我々は$gamma$-regretと呼ばれる一連の測度を提案し、これは有限時間最適性をよりよく捉えると信じている。
論文 参考訳(メタデータ) (2020-02-12T18:30:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。