論文の概要: Reinforcement Learning From State and Temporal Differences
- arxiv url: http://arxiv.org/abs/2512.08855v1
- Date: Tue, 09 Dec 2025 17:48:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.07012
- Title: Reinforcement Learning From State and Temporal Differences
- Title(参考訳): 国家と時間差による強化学習
- Authors: Lex Weaver, Jonathan Baxter,
- Abstract要約: 関数近似を用いたTD($$)は、複雑な強化学習問題に対して経験的に成功した。
我々は、状態値の誤差ではなく、臨界状態の相対的な順序付けにおける誤差を示す。
本稿では,TD($$),STD($$),Function Approximatorが二項決定問題に対する相対的状態値に対してトレーニングされるTD($$),TD($$)の修正形式を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: TD($λ$) with function approximation has proved empirically successful for some complex reinforcement learning problems. For linear approximation, TD($λ$) has been shown to minimise the squared error between the approximate value of each state and the true value. However, as far as policy is concerned, it is error in the relative ordering of states that is critical, rather than error in the state values. We illustrate this point, both in simple two-state and three-state systems in which TD($λ$)--starting from an optimal policy--converges to a sub-optimal policy, and also in backgammon. We then present a modified form of TD($λ$), called STD($λ$), in which function approximators are trained with respect to relative state values on binary decision problems. A theoretical analysis, including a proof of monotonic policy improvement for STD($λ$) in the context of the two-state system, is presented, along with a comparison with Bertsekas' differential training method [1]. This is followed by successful demonstrations of STD($λ$) on the two-state system and a variation on the well known acrobot problem.
- Abstract(参考訳): 関数近似を用いたTD($λ$)は、複雑な強化学習問題に対して経験的に成功した。
線形近似では、TD($λ$) は各状態の近似値と真値の間の二乗誤差を最小化する。
しかし、政策に関して言えば、状態値の誤差よりも重要な状態の相対的な順序付けにおいてエラーである。
この点を、TD($λ$)が最適ポリシーから準最適ポリシーへ収束する単純な2状態系と3状態系の両方で説明する。
次に、TD($λ$)の修正形式をSTD($λ$)と呼び、二項決定問題に対する相対状態値に関して関数近似器を訓練する。
2状態系の文脈におけるSTD($λ$)に対する単調な政策改善の証明を含む理論的解析を、ベルツェカスの微分訓練法 [1] との比較とともに提示する。
これに続いて、2状態系におけるSTD($λ$)の実証と、よく知られたアクロボット問題に対する変動が成功した。
関連論文リスト
- Distributionally Robust Policy Learning under Concept Drifts [33.44768994272614]
本稿では、より曖昧な問題、つまり、コンセプトドリフトの下でのロバストな政策学習について研究する。
まず、与えられた政策の最悪の平均報酬を評価するための2倍のロバスト推定器を提供する。
次に、所定のポリシークラス内で推定されたポリシー値を最大化するポリシーを出力する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-18T19:53:56Z) - Statistical Learning of Distributionally Robust Stochastic Control in Continuous State Spaces [17.96094201655567]
X_t+1 = f(X_t, A_t, W_t)$。
ここでは、$X$、$A$、$W$はそれぞれ状態、アクション、ランダムノイズプロセスを表し、$f$は状態遷移を記述する既知の関数を表す。
本稿では,所定のあいまいさ集合内の雑音分布に対して,おそらく逆方向の摂動を許容する分布的に頑健な制御パラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-17T07:37:36Z) - Optimization of Time-Dependent Decoherence Rates and Coherent Control
for a Qutrit System [77.34726150561087]
非コヒーレント制御は、特定の制御方法で時間に応じてデコヒーレンス率を決定する。
我々は、システムの最終状態$rho(T)$と与えられたターゲット状態$rho_rmターゲットとの間のヒルベルト・シュミットの重なりを最大化する問題を考察する。
論文 参考訳(メタデータ) (2023-08-08T01:28:50Z) - On the Model-Misspecification in Reinforcement Learning [9.864462523050843]
本稿では,強化学習におけるモデルの誤特定に対処するための統一的理論的枠組みを提案する。
本研究では,値に基づく手法とモデルに基づく手法が,局所的不特定誤差境界の下で頑健性を実現することを示す。
また、$zeta$の事前知識なしで同じ後悔の順序を達成できるアルゴリズム的フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T04:31:59Z) - Reinforcement Learning in a Birth and Death Process: Breaking the
Dependence on the State Space [0.0]
我々は、出生・死亡構造を有するMDPにおける未報告の強化学習の後悔を再考する。
本研究の結果から,従来の学習アルゴリズム sc Ucrl2 のやや遅れたバージョンに対する後悔は,実際には $tildemathcalO(sqrtEAT)$ で表される。
論文 参考訳(メタデータ) (2023-02-21T13:28:37Z) - Horizon-Free and Variance-Dependent Reinforcement Learning for Latent
Markov Decision Processes [62.90204655228324]
我々は,後期マルコフ決定過程(LMDP)における強化学習(RL)の文脈を考慮した後悔の最小化について検討した。
我々は,モデル最適化と値最適化の両手法でインスタンス化できる,新しいモデルベースアルゴリズムフレームワークを設計する。
論文 参考訳(メタデータ) (2022-10-20T21:32:01Z) - Best Policy Identification in Linear MDPs [70.57916977441262]
縮退した線形マルコフ+デルタ決定における最適同定問題について, 生成モデルに基づく固定信頼度設定における検討を行った。
複雑な非最適化プログラムの解としての下位境界は、そのようなアルゴリズムを考案する出発点として用いられる。
論文 参考訳(メタデータ) (2022-08-11T04:12:50Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Instance-optimality in optimal value estimation: Adaptivity via
variance-reduced Q-learning [99.34907092347733]
本稿では,マルコフ決定過程における最適な$Q$値関数を離散状態と動作で推定する問題を解析する。
局所的なミニマックスフレームワークを用いて、この関数は任意の推定手順の精度の低い境界に現れることを示す。
他方,Q$ラーニングの分散還元版を解析することにより,状態と行動空間の対数的要因まで,下位境界のシャープさを確立する。
論文 参考訳(メタデータ) (2021-06-28T00:38:54Z) - Naive Exploration is Optimal for Online LQR [49.681825576239355]
最適後悔尺度は$widetildeTheta(sqrtd_mathbfu2 d_mathbfx T)$で、$T$は時間ステップの数、$d_mathbfu$は入力空間の次元、$d_mathbfx$はシステム状態の次元である。
我々の下界は、かつての$mathrmpoly(logT)$-regretアルゴリズムの可能性を排除する。
論文 参考訳(メタデータ) (2020-01-27T03:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。