論文の概要: Commit to the Bit: Reactive Reinforcement Learning Done Right
- arxiv url: http://arxiv.org/abs/2605.28276v1
- Date: Wed, 27 May 2026 10:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.96929
- Title: Commit to the Bit: Reactive Reinforcement Learning Done Right
- Title(参考訳): ビットへのコミット: リアクティブ強化学習が正しく行う
- Authors: Onno Eberhard, Claire Vernade, Michael Muehlebach,
- Abstract要約: 強化学習アルゴリズムはマルコフの仮定に基づいて一般的に分析(および設計)される。
我々は、新しいアルゴリズム、Commited Q-learningを導入し、最適反応ポリシーにほぼ確実に収束することを証明する。
我々の分析の重要な部分は準マルコフ環境の導入である。
- 参考スコア(独自算出の注目度): 9.705864780152549
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning algorithms are commonly analyzed (and designed) under the Markov assumption. This is unrealistic, as most environments encountered in practice are either partially observable, or require function approximation that restricts the agent to access non-Markovian state features. We consider the problem of learning an optimal reactive policy in a finite environment with deterministic observations (or equivalently, hard state aggregation). We introduce a new algorithm, Committed Q-learning, and prove almost-sure convergence to the optimal reactive policy under an intuitive assumption we call rewire-robustness. This assumption is strictly weaker than the $q_\star$-realizability condition used in prior work. Our algorithm is a variant of classical Q-learning in which the behavior policy commits to a single action upon entering a feature, and only resamples actions when the observed feature changes. A crucial part of our analysis is the introduction of quasi-Markov environments.
- Abstract(参考訳): 強化学習アルゴリズムはマルコフの仮定の下で一般的に分析(および設計)される。
これは非現実的であり、実際に遭遇するほとんどの環境は部分的に観測可能であるか、エージェントが非マルコフ状態の特徴にアクセスするのを制限する関数近似を必要とする。
決定論的観測(あるいは等価なハードステートアグリゲーション)を伴う有限環境における最適反応ポリシーの学習問題を考察する。
我々は新しいアルゴリズム、Commited Q-learningを導入し、リワイヤ・ロバストネス(rewire-robustness)と呼ぶ直感的な仮定の下で、最適反応ポリシーにほぼ確実に収束することを証明する。
この仮定は、以前の作業で使われる$q_\star$-realizability条件よりも厳格に弱い。
我々のアルゴリズムは古典的なQ-ラーニングの変種であり、行動ポリシーは特徴の入力時に1つの行動にコミットし、観察された特徴が変化したときにのみ行動を再サンプリングする。
我々の分析の重要な部分は準マルコフ環境の導入である。
関連論文リスト
- Provably Efficient Reward Transfer in Reinforcement Learning with Discrete Markov Decision Processes [2.9388795721577328]
我々は、強化学習における報酬適応(RA)のための新しいソリューションを提案する。
本稿では,Q関数の操作によるRAに対する新しいアプローチを提案する。
この手法を "Q-Manipulation" (Q-M) と呼ぶ。
論文 参考訳(メタデータ) (2025-03-17T17:42:54Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Robust Fitted-Q-Evaluation and Iteration under Sequentially Exogenous Unobserved Confounders [9.401989343015364]
連続的に外生的でない共同設立者が存在する場合、ロバストな政策評価と政策最適化について検討する。
本研究は,敗血症治療のシミュレーションと実世界の縦断医療データの両方において,複雑性境界,洞察,有効性を示す。
論文 参考訳(メタデータ) (2023-02-01T18:40:53Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Deep Inverse Q-learning with Constraints [15.582910645906145]
我々は、専門家のポリシーを回復するために、実証行動の根底にあるMDPを解くことしか必要としない新しいアルゴリズムのクラスを導入する。
本稿では,このアルゴリズムを関数近似を用いて連続状態空間に拡張する方法と,対応するアクション値関数を推定する方法を示す。
我々は、Objectworldベンチマーク上で、逆アクション値反復、逆Q-ラーニング、ディープ逆Q-ラーニングと呼ばれる結果のアルゴリズムを評価した。
論文 参考訳(メタデータ) (2020-08-04T17:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。