論文の概要: Auto-exploration for online reinforcement learning
- arxiv url: http://arxiv.org/abs/2512.06244v1
- Date: Sat, 06 Dec 2025 02:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.258425
- Title: Auto-exploration for online reinforcement learning
- Title(参考訳): オンライン強化学習のための自動探索
- Authors: Caleb Ju, Guanghui Lan,
- Abstract要約: 強化学習における探索-探索ジレンマは、効率的なRLアルゴリズムの基本的な課題である。
有限状態およびアクションディスカウントされたRL問題の既存のアルゴリズムは、状態空間と作用空間の両方について十分な探索を仮定することでこの問題に対処する。
自動探索を用いた新しい手法や,状態空間と行動空間の両方をパラメータフリーで自動的に探索する手法を導入する。
- 参考スコア(独自算出の注目度): 1.2788899058467404
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exploration-exploitation dilemma in reinforcement learning (RL) is a fundamental challenge to efficient RL algorithms. Existing algorithms for finite state and action discounted RL problems address this by assuming sufficient exploration over both state and action spaces. However, this yields non-implementable algorithms and sub-optimal performance. To resolve these limitations, we introduce a new class of methods with auto-exploration, or methods that automatically explore both state and action spaces in a parameter-free way, i.e.,~without a priori knowledge of problem-dependent parameters. We present two variants: one for the tabular setting and one for linear function approximation. Under algorithm-independent assumptions on the existence of an exploring optimal policy, both methods attain $O(ε^{-2})$ sample complexity to solve to $ε$ error. Crucially, these complexities are novel since they are void of algorithm-dependent parameters seen in prior works, which may be arbitrarily large. The methods are also simple to implement because they are parameter-free and do not directly estimate the unknown parameters. These feats are achieved by new algorithmic innovations for RL, including a dynamic mixing time, a discounted state distribution for sampling, a simple robust gradient estimator, and a recent advantage gap function to certify convergence.
- Abstract(参考訳): 強化学習(RL)における探索・探索ジレンマは、効率的なRLアルゴリズムに対する根本的な挑戦である。
有限状態およびアクションディスカウントされたRL問題の既存のアルゴリズムは、状態空間と作用空間の両方について十分な探索を仮定することでこの問題に対処する。
しかし、これは実装不可能なアルゴリズムと準最適性能をもたらす。
これらの制約を解決するために、自動探索を用いた新しい手法や、状態空間と行動空間の両方をパラメータフリーで自動的に探索する手法、すなわち、問題依存パラメータの事前知識なしで導入する。
1つは表の設定用であり、もう1つは線形関数近似用である。
探索的最適ポリシーの存在に関するアルゴリズムに依存しない仮定の下で、どちらの手法も、$O(ε^{-2})$サンプルの複雑さを$ε$エラーに解くことができる。
重要なことに、これらの複雑さは、前の研究で見られるアルゴリズムに依存したパラメータが存在しないため、任意に大きいかもしれないため、新しいものである。
メソッドはパラメータフリーであり、未知のパラメータを直接見積もらないため、実装も簡単である。
これらの成果は、動的混合時間、サンプリングのための割引状態分布、単純な頑健な勾配推定器、収束を証明するための最近の利点ギャップ関数を含む、RLの新しいアルゴリズム革新によって達成される。
関連論文リスト
- Adaptive Resolving Methods for Reinforcement Learning with Function Approximations [4.168629519090361]
本稿では,関数近似を用いた強化学習問題の解法を提案する。
我々のアルゴリズムは線形プログラミング(LP)の再構成に基づいており、新たなデータ到着によって改善された各LPを解消する。
O(1/sqrtN)$ the worst-case guarantee established in the previous literature, our instance-dependent guarantee is tight than the underlying instance is favorable。
論文 参考訳(メタデータ) (2025-05-17T14:59:15Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Online Learning Under A Separable Stochastic Approximation Framework [20.26530917721778]
分離可能な近似フレームワークを用いて,機械学習モデルのクラスに対するオンライン学習アルゴリズムを提案する。
提案アルゴリズムは,他の一般的な学習アルゴリズムと比較して,より堅牢でテスト性能が高いことを示す。
論文 参考訳(メタデータ) (2023-05-12T13:53:03Z) - Stochastic Direct Search Method for Blind Resource Allocation [6.574808513848414]
線形制約付きおよび微分自由最適化のための直接探索法(パターン探索とも呼ばれる)について検討する。
直接探索法は決定論的かつ制約のない場合において有限の後悔を達成できることを示す。
そこで本研究では,T2/3$のオーダを後悔させるようなダイレクトサーチの簡単な拡張を提案する。
論文 参考訳(メタデータ) (2022-10-11T07:40:45Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free
Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。
提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。
初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文 参考訳(メタデータ) (2021-10-09T21:13:48Z) - Online Sub-Sampling for Reinforcement Learning with General Function
Approximation [111.01990889581243]
本稿では,RLアルゴリズムによって収集されたデータポイントの情報取得量を測定する,効率的なオンラインサブサンプリングフレームワークを確立する。
複雑性バウンド関数クラスを持つ値ベースのメソッドの場合、$proptooperatornamepolylog(K)$ timesに対してのみポリシーを更新する必要がある。
少なくとも$Omega(K)$倍のポリシーを更新する既存のアプローチとは対照的に、当社のアプローチはポリシーの解決における最適化コールの数を劇的に削減します。
論文 参考訳(メタデータ) (2021-06-14T07:36:25Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。