論文の概要: Replicable Reinforcement Learning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2509.08660v2
- Date: Wed, 01 Oct 2025 14:47:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 14:33:21.744977
- Title: Replicable Reinforcement Learning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた再現性強化学習
- Authors: Eric Eaton, Marcel Hussing, Michael Kearns, Aaron Roth, Sikata Bela Sengupta, Jessica Sorrell,
- Abstract要約: 複製可能なランダム設計回帰と非中心共分散推定のための2つの効率的なアルゴリズムを導入する。
次に、これらのツールを活用して、線形マルコフ決定プロセスのための最初の証明可能なRLアルゴリズムを提供する。
我々は、我々のアルゴリズムを実験的に評価し、より一貫性のあるニューラルポリシーをいかに刺激するかを示す。
- 参考スコア(独自算出の注目度): 21.370247743205056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replication of experimental results has been a challenge faced by many scientific disciplines, including the field of machine learning. Recent work on the theory of machine learning has formalized replicability as the demand that an algorithm produce identical outcomes when executed twice on different samples from the same distribution. Provably replicable algorithms are especially interesting for reinforcement learning (RL), where algorithms are known to be unstable in practice. While replicable algorithms exist for tabular RL settings, extending these guarantees to more practical function approximation settings has remained an open problem. In this work, we make progress by developing replicable methods for linear function approximation in RL. We first introduce two efficient algorithms for replicable random design regression and uncentered covariance estimation, each of independent interest. We then leverage these tools to provide the first provably efficient replicable RL algorithms for linear Markov decision processes in both the generative model and episodic settings. Finally, we evaluate our algorithms experimentally and show how they can inspire more consistent neural policies.
- Abstract(参考訳): 実験結果の複製は、機械学習の分野を含む多くの科学分野が直面している課題である。
機械学習の理論に関する最近の研究は、アルゴリズムが同じ分布から2回異なるサンプルで実行された場合、同じ結果が得られるという要求から、複製性を公式化した。
おそらく複製可能なアルゴリズムは、アルゴリズムが実際に不安定であることが知られている強化学習(RL)において特に興味深い。
表付きRL設定には複製可能なアルゴリズムが存在するが、これらの保証をより実用的な関数近似設定に拡張することは未解決の問題である。
本研究では,線形関数近似のための複製可能な手法をRLで開発する。
まず、複製可能なランダム設計回帰と非中心共分散推定のための2つの効率的なアルゴリズムを導入する。
次に、これらのツールを活用して、生成モデルとエピソード設定の両方において、線形マルコフ決定プロセスのための最初の証明可能なレプリケートRLアルゴリズムを提供する。
最後に、我々のアルゴリズムを実験的に評価し、より一貫性のあるニューラルポリシーをいかに刺激するかを示す。
関連論文リスト
- Replicable Reinforcement Learning [15.857503103543308]
本稿では、並列値反復のための証明可能なレプリカブルアルゴリズムと、エピソード設定における証明可能なR-maxのレプリカブルバージョンを提供する。
これらは制御問題に対する最初の公式なレプリカ化結果であり、バッチ学習設定とは異なるレプリケーションの課題を提示している。
論文 参考訳(メタデータ) (2023-05-24T16:05:15Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Ordering-Based Causal Discovery with Reinforcement Learning [31.358145789333825]
本論文では, RL を順序付けに基づくパラダイムに組み込むことにより, RL に基づく因果的発見手法を提案する。
提案手法の一貫性と計算複雑性を分析し,事前学習モデルを用いて学習を高速化できることを実証的に示す。
論文 参考訳(メタデータ) (2021-05-14T03:49:59Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - A Two-stage Framework and Reinforcement Learning-based Optimization
Algorithms for Complex Scheduling Problems [54.61091936472494]
本稿では、強化学習(RL)と従来の運用研究(OR)アルゴリズムを組み合わせた2段階のフレームワークを開発する。
スケジューリング問題は,有限マルコフ決定過程 (MDP) と混合整数計画過程 (mixed-integer programming process) の2段階で解決される。
その結果,本アルゴリズムは,アジャイルな地球観測衛星スケジューリング問題に対して,安定かつ効率的に十分なスケジューリング計画を得ることができた。
論文 参考訳(メタデータ) (2021-03-10T03:16:12Z) - Discovering Reinforcement Learning Algorithms [53.72358280495428]
強化学習アルゴリズムは、いくつかのルールの1つに従ってエージェントのパラメータを更新する。
本稿では,更新ルール全体を検出するメタラーニング手法を提案する。
これには、一連の環境と対話することで、"何を予測するか"(例えば、値関数)と"どのように学習するか"の両方が含まれている。
論文 参考訳(メタデータ) (2020-07-17T07:38:39Z) - Efficient Model-Based Reinforcement Learning through Optimistic Policy
Search and Planning [93.1435980666675]
最先端の強化学習アルゴリズムと楽観的な探索を容易に組み合わせることができることを示す。
我々の実験は、楽観的な探索が行動に罰則がある場合、学習を著しくスピードアップすることを示した。
論文 参考訳(メタデータ) (2020-06-15T18:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。