論文の概要: Reinforcement Learning From State and Temporal Differences
- arxiv url: http://arxiv.org/abs/2512.08855v1
- Date: Tue, 09 Dec 2025 17:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.07012
- Title: Reinforcement Learning From State and Temporal Differences
- Title(参考訳): 国家と時間差による強化学習
- Authors: Lex Weaver, Jonathan Baxter,
- Abstract要約: 関数近似を用いたTD($$)は、複雑な強化学習問題に対して経験的に成功した。
我々は、状態値の誤差ではなく、臨界状態の相対的な順序付けにおける誤差を示す。
本稿では,TD($$),STD($$),Function Approximatorが二項決定問題に対する相対的状態値に対してトレーニングされるTD($$),TD($$)の修正形式を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: TD($λ$) with function approximation has proved empirically successful for some complex reinforcement learning problems. For linear approximation, TD($λ$) has been shown to minimise the squared error between the approximate value of each state and the true value. However, as far as policy is concerned, it is error in the relative ordering of states that is critical, rather than error in the state values. We illustrate this point, both in simple two-state and three-state systems in which TD($λ$)--starting from an optimal policy--converges to a sub-optimal policy, and also in backgammon. We then present a modified form of TD($λ$), called STD($λ$), in which function approximators are trained with respect to relative state values on binary decision problems. A theoretical analysis, including a proof of monotonic policy improvement for STD($λ$) in the context of the two-state system, is presented, along with a comparison with Bertsekas' differential training method [1]. This is followed by successful demonstrations of STD($λ$) on the two-state system and a variation on the well known acrobot problem.
- Abstract(参考訳): 関数近似を用いたTD($λ$)は、複雑な強化学習問題に対して経験的に成功した。
線形近似では、TD($λ$) は各状態の近似値と真値の間の二乗誤差を最小化する。
しかし、政策に関して言えば、状態値の誤差よりも重要な状態の相対的な順序付けにおいてエラーである。
この点を、TD($λ$)が最適ポリシーから準最適ポリシーへ収束する単純な2状態系と3状態系の両方で説明する。
次に、TD($λ$)の修正形式をSTD($λ$)と呼び、二項決定問題に対する相対状態値に関して関数近似器を訓練する。
2状態系の文脈におけるSTD($λ$)に対する単調な政策改善の証明を含む理論的解析を、ベルツェカスの微分訓練法 [1] との比較とともに提示する。
これに続いて、2状態系におけるSTD($λ$)の実証と、よく知られたアクロボット問題に対する変動が成功した。
関連論文リスト
- Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces [17.96094201655567]
X_t+1 = f(X_t, A_t, W_t)$。
ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。
本稿では,所定のあいまいさ集合内の雑音分布に対して,おそらく逆方向の摂動を許容する分布的に頑健な制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-17T07:37:36Z) - Optimization of Time-Dependent Decoherence Rates and Coherent Control
for a Qutrit System [77.34726150561087]
非コヒーレント制御は、特定の制御方法で時間に応じてデコヒーレンス率を決定する。
我々は、システムの最終状態$rho(T)$と与えられたターゲット状態$rho_rmターゲットとの間のヒルベルト・シュミットの重なりを最大化する問題を考察する。
論文 参考訳(メタデータ) (2023-08-08T01:28:50Z) - On the Model-Misspecification in Reinforcement Learning [9.864462523050843]
本稿では,強化学習におけるモデルの誤特定に対処するための統一的理論的枠組みを提案する。
本研究では,値に基づく手法とモデルに基づく手法が,局所的不特定誤差境界の下で頑健性を実現することを示す。
また、$zeta$の事前知識なしで同じ後悔の順序を達成できるアルゴリズム的フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T04:31:59Z) - Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Trusted Approximate Policy Iteration with Bisimulation Metrics [1.6498361958317633]
シミュレーションメトリクスは、報酬シーケンスの比較に基づいてマルコフ決定プロセス(MDP)の状態間の距離測定を定義する。
この研究において、まず、任意の$pgeq 1$に対して、任意の$p$-ワッサーシュタイン計量によって、バイシミュレーション測度を定義できることを証明した。
次に、$epsilon$-aggregationを$pi$-bisimulationで使用する近似ポリシー反復(API)手順を説明し、連続状態空間のパフォーマンス境界を証明する。
論文 参考訳(メタデータ) (2022-02-06T22:41:56Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Scattering data and bound states of a squeezed double-layer structure [77.34726150561087]
2つの平行な均質層からなる構造は、その幅が$l_j$と$l_j$であり、それらの間の距離が$r$を同時に0に縮めるように、極限において研究される。
非自明な有界状態の存在は、ディラックのデルタ関数の微分の形で圧縮ポテンシャルの特別な例を含む、スクイーズ極限で証明される。
有限系の有限個の有界状態から、一個の有界状態が圧縮された系で生き残るシナリオを詳述する。
論文 参考訳(メタデータ) (2020-11-23T14:40:27Z) - Minimax-Optimal Off-Policy Evaluation with Linear Function Approximation [49.502277468627035]
本稿では,関数近似を用いたバッチデータ強化学習の統計的理論について検討する。
記録履歴から新たな対象政策の累積値を推定するオフ・ポリティクス評価問題を考察する。
論文 参考訳(メタデータ) (2020-02-21T19:20:57Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。