論文の概要: Improved Bounds for Reward-Agnostic and Reward-Free Exploration
- arxiv url: http://arxiv.org/abs/2602.16363v1
- Date: Wed, 18 Feb 2026 11:04:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.58346
- Title: Improved Bounds for Reward-Agnostic and Reward-Free Exploration
- Title(参考訳): Reward-Agnostic and Reward-free Explorationのための改良された境界
- Authors: Oran Ridel, Alon Cohen,
- Abstract要約: エピソード有限水平マルコフ決定過程における報酬フリーおよび報酬非依存探索について検討する。
Reward-free Exploringは、探索後に明らかになった報酬に対して$$-optimal Policyを有効にすることを目的としており、報奨非依存な探索は、小さな有限クラスから引き出された報酬に対して$-optimalityをターゲットとしている。
- 参考スコア(独自算出の注目度): 5.120675183010349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study reward-free and reward-agnostic exploration in episodic finite-horizon Markov decision processes (MDPs), where an agent explores an unknown environment without observing external rewards. Reward-free exploration aims to enable $ε$-optimal policies for any reward revealed after exploration, while reward-agnostic exploration targets $ε$-optimality for rewards drawn from a small finite class. In the reward-agnostic setting, Li, Yan, Chen, and Fan achieve minimax sample complexity, but only for restrictively small accuracy parameter $ε$. We propose a new algorithm that significantly relaxes the requirement on $ε$. Our approach is novel and of technical interest by itself. Our algorithm employs an online learning procedure with carefully designed rewards to construct an exploration policy, which is used to gather data sufficient for accurate dynamics estimation and subsequent computation of an $ε$-optimal policy once the reward is revealed. Finally, we establish a tight lower bound for reward-free exploration, closing the gap between known upper and lower bounds.
- Abstract(参考訳): 本研究では, エージェントが外部の報酬を観察することなく未知の環境を探索する, エピソード有限水平マルコフ決定過程(MDPs)について, 無報酬・無報酬探索について検討する。
Reward-free Exploring は、探索後に明らかになった報酬に対して$ε$-optimal Policy を有効にすることを目的としており、報奨非依存な探索は、小さな有限クラスから引き出された報酬に対して$ε$-optimality を目標としている。
報酬に依存しない設定では、Li、Yan、Chen、Fanはミニマックスサンプルの複雑さを達成するが、制限的に小さな精度パラメータ$ε$に対してのみ成立する。
本稿では,$ε$で要求を大幅に緩和するアルゴリズムを提案する。
私たちのアプローチは斬新で、技術的に興味深いものです。
提案アルゴリズムでは,厳密に設計された報酬を用いたオンライン学習手法を用いて探索ポリシーを構築し,精度の高いダイナミックス推定に十分なデータを収集し,その報奨が明らかになると,$ε$-optimal Policyの計算を行う。
最後に、既知上界と下界のギャップを埋める、報酬のない探索のための厳密な下界を確立する。
関連論文リスト
- Minimax-Optimal Reward-Agnostic Exploration in Reinforcement Learning [17.239062061431646]
本稿では,強化学習(RL)における報酬非依存探索について検討する。
S$状態、$A$作用、および水平長$H$を持つ有限水平不均一決定過程を考える。
我々のアルゴリズムは任意の数の報酬関数に対して$varepsilon$精度を得ることができる。
論文 参考訳(メタデータ) (2023-04-14T17:46:49Z) - Optimal Horizon-Free Reward-Free Exploration for Linear Mixture MDPs [60.40452803295326]
線形マルコフ決定過程(MDP)を学習するための新たな報酬なしアルゴリズムを提案する。
我々のアルゴリズムの核心は、探索駆動の擬似回帰を用いた不確実性重み付き値目標回帰である。
我々のアルゴリズムは$tilde O(d2varepsilon-2)$ episodesを探索するだけで、$varepsilon$-optimal policyを見つけることができる。
論文 参考訳(メタデータ) (2023-03-17T17:53:28Z) - On Reward-Free RL with Kernel and Neural Function Approximations:
Single-Agent MDP and Markov Game [140.19656665344917]
エージェントが事前に特定された報酬関数を使わずに環境を徹底的に探索することを目的とした報酬のないRL問題について検討する。
関数近似の文脈でこの問題に取り組み、強力な関数近似器を活用する。
我々は、カーネルとニューラルファンクション近似器を用いた、証明可能な効率の良い報酬なしRLアルゴリズムを確立した。
論文 参考訳(メタデータ) (2021-10-19T07:26:33Z) - MADE: Exploration via Maximizing Deviation from Explored Regions [48.49228309729319]
オンライン強化学習(RL)では、高次元環境における効率的な探索は依然として困難であり、報酬は少ない。
調査地域からの次の政策の逸脱を最大化することによる新たな探索手法を提案する。
提案手法は,最先端手法よりもサンプル効率を著しく向上させる。
論文 参考訳(メタデータ) (2021-06-18T17:57:00Z) - Adaptive Reward-Free Exploration [48.98199700043158]
提案アルゴリズムは1994年からのFiechterのアルゴリズムの変種と見なすことができる。
さらに、報酬のない探索と最高の政治識別の相対的な複雑さについて検討する。
論文 参考訳(メタデータ) (2020-06-11T09:58:03Z) - Reward-Free Exploration for Reinforcement Learning [82.3300753751066]
探索の課題を分離する「逆フリーなRL」フレームワークを提案する。
我々は,$tildemathcalO(S2Amathrmpoly(H)/epsilon2)$の探索を効率的に行うアルゴリズムを提案する。
また、ほぼ一致する$Omega(S2AH2/epsilon2)$ lower boundを与え、この設定でアルゴリズムのほぼ最適性を示す。
論文 参考訳(メタデータ) (2020-02-07T14:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。