論文の概要: List Replicable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.00553v1
- Date: Sat, 29 Nov 2025 16:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.292665
- Title: List Replicable Reinforcement Learning
- Title(参考訳): List Replicable Reinforcement Learning
- Authors: Bohan Zhang, Michael Chen, A. Pavan, N. V. Vinodchandran, Lin F. Yang, Ruosong Wang,
- Abstract要約: Probably A roughly correct (PAC) RL frameworkにおけるエフェリストの再現性について検討した。
弱いリストと強いリストの複製性の両方を導入します。
我々は,新たな計画戦略を実践的なRLフレームワークに組み込むことで,その安定性を向上できることを示す。
- 参考スコア(独自算出の注目度): 23.401442101618215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replicability is a fundamental challenge in reinforcement learning (RL), as RL algorithms are empirically observed to be unstable and sensitive to variations in training conditions. To formally address this issue, we study \emph{list replicability} in the Probably Approximately Correct (PAC) RL framework, where an algorithm must return a near-optimal policy that lies in a \emph{small list} of policies across different runs, with high probability. The size of this list defines the \emph{list complexity}. We introduce both weak and strong forms of list replicability: the weak form ensures that the final learned policy belongs to a small list, while the strong form further requires that the entire sequence of executed policies remains constrained. These objectives are challenging, as existing RL algorithms exhibit exponential list complexity due to their instability. Our main theoretical contribution is a provably efficient tabular RL algorithm that guarantees list replicability by ensuring the list complexity remains polynomial in the number of states, actions, and the horizon length. We further extend our techniques to achieve strong list replicability, bounding the number of possible policy execution traces polynomially with high probability. Our theoretical result is made possible by key innovations including (i) a novel planning strategy that selects actions based on lexicographic order among near-optimal choices within a randomly chosen tolerance threshold, and (ii) a mechanism for testing state reachability in stochastic environments while preserving replicability. Finally, we demonstrate that our theoretical investigation sheds light on resolving the \emph{instability} issue of RL algorithms used in practice. In particular, we show that empirically, our new planning strategy can be incorporated into practical RL frameworks to enhance their stability.
- Abstract(参考訳): 再現性は強化学習(RL)の基本的な課題であり、RLアルゴリズムは不安定で訓練条件の変動に敏感である。
この問題を正式に解決するために、確率的近似(PAC) RL フレームワークで \emph{list replicability} を検証し、アルゴリズムは異なるランにまたがるポリシーの \emph{small list} に含まれる準最適ポリシーを高い確率で返さなければならない。
このリストのサイズは \emph{list complexity} を定義する。
弱い形式は、最終的な学習されたポリシーが小さなリストに属することを保証するが、強い形式は、実行されたポリシーの全順序が制約されたままであることを要求する。
これらの目的は、既存のRLアルゴリズムが不安定性のために指数関数的なリストの複雑さを示すため、困難である。
我々の主な理論的貢献は、リストの複雑さが状態数、動作数、地平線長の多項式であることを保証し、リストの複製性を確実に保証する証明可能な表RLアルゴリズムである。
さらに我々の手法を拡張して、高い確率で多項式的にポリシー実行トレースの数を制限し、強力なリストの複製性を実現する。
私たちの理論的結果は、重要なイノベーションによって実現されます。
一 ランダムに選択された許容閾値内において、最適に近い選択のうち、語彙順に基づいて行動を選択する新しい計画戦略
二 複製性を維持しつつ、確率的環境における状態到達性をテストするためのメカニズム。
最後に、我々の理論的研究は、実際に使用されるRLアルゴリズムの「emph{instability}」問題の解決に光を当てていることを実証する。
特に,我々の新たな計画戦略を実践的なRLフレームワークに組み込むことによって,その安定性を向上させることを実証的に示す。
関連論文リスト
- Soft Forward-Backward Representations for Zero-shot Reinforcement Learning with General Utilities [55.52456333246921]
フォワード・バックワードアルゴリズムは、任意の標準RL問題をほぼ解決できるポリシーの族を検索することができる。
汎用ユーティリティを用いたRLのより大きい問題クラスに取り組み、その目的は占有率の任意の微分可能関数である。
この複雑さは、フォワード・バックワードアルゴリズムの新たな最大エントロピー(ソフト)変種によって捉えられることを示す。
論文 参考訳(メタデータ) (2026-02-06T15:24:37Z) - Random Policy Valuation is Enough for LLM Reasoning with Verifiable Rewards [47.557539197058496]
逆推論のためのランダムポリシー評価(ROVER)について紹介する。
ROVERは、一様政体Q値上のソフトマックスから作用をサンプリングする最小限だが高効率なRL法である。
textbfquality(textbf+8.2 on pass@1, textbf+16.8 on pass@256)と textbfdiversity(textbf+17.6%)の両方で優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-09-29T16:09:07Z) - StaQ it! Growing neural networks for Policy Mirror Descent [4.672862669694739]
強化学習(RL)では、理論と実践の両方において、正規化が一般的なツールとして現れている。
我々は,最後の$M$Q関数のみをメモリに保持するPMDのようなアルゴリズムを提案し,解析する。
有限で十分大きい$M$に対して、収束アルゴリズムを導出することができ、ポリシー更新にエラーは発生しない。
論文 参考訳(メタデータ) (2025-06-16T18:00:01Z) - Multilinear Tensor Low-Rank Approximation for Policy-Gradient Methods in Reinforcement Learning [27.868175900131313]
強化学習 (Reinforcement Learning, RL) は、与えられた(時間変化のある)状態を取るための行動を推定することを目的としている。
本稿では,RLポリシーのパラメータを効率的に推定するために,複数線形写像を仮定する。
我々はPARAFAC分解を利用してテンソル低ランクポリシーを設計する。
論文 参考訳(メタデータ) (2025-01-08T23:22:08Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。
我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。
これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文 参考訳(メタデータ) (2023-10-09T19:40:54Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。