論文の概要: Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
- arxiv url: http://arxiv.org/abs/2605.28849v1
- Date: Sat, 16 May 2026 11:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:43.03986
- Title: Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction
- Title(参考訳): より高速なオフポリティ予測のための行動誘発ミラープロップス時間差学習
- Authors: Xingguo Chen, Yuchen Shen, Shangdong Yang, Chao Li, Guang Yang, Wenhao Wang,
- Abstract要約: STHTD-MPと呼ばれる行動誘発ミラープロキシ時間差分法を提案する。
STHTD-MPがGTD2-MPよりも小さい平均収縮係数を持つことを示す。
- 参考スコア(独自算出の注目度): 18.894707442188405
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Gradient temporal-difference methods provide stable off-policy prediction with linear function approximation, but their practical performance is strongly affected by the geometry induced by the auxiliary-variable metric. Existing Mirror-Prox TD methods typically use the feature covariance metric, whereas hybrid TD methods suggest that behavior-policy transition information can provide a more informative update geometry. This paper proposes a behavior-induced Mirror-Prox temporal-difference method, called STHTD-MP, which replaces the covariance metric in the primal-dual saddle-point formulation with the symmetric part of the behavior-policy Bellman matrix. The method keeps a single learning rate for the primal and auxiliary variables and applies a Mirror-Prox prediction-correction step to the resulting hybrid saddle-point operator. We provide a formal convergence analysis for fixed-policy linear prediction under standard stochastic approximation assumptions: the behavior-induced metric is positive definite, the joint mean system is Hurwitz, boundedness follows from a Lyapunov argument, and the stochastic recursion converges by the ODE method. We further derive projected-oracle ergodic gap bounds and an exact mean-operator comparison with GTD2-MP based on the spectral radius of the deterministic Mirror-Prox error matrix. The analysis shows that STHTD-MP can have a smaller mean contraction factor than GTD2-MP when the behavior-induced metric improves the saddle-point geometry. Exact numerical mean-operator analysis on two-state, Random Walk, and Boyan Chain benchmarks supports this condition, while Baird's counterexample is identified as a singular boundary case where the strict assumptions fail.
- Abstract(参考訳): 勾配時間差分法は線形関数近似による安定なオフポリシー予測を提供するが、その実用性能は補助変数計量によって誘導される幾何の影響を強く受けている。
既存のミラー・プロックスのTD法は特徴共分散計量を用いるのが一般的であるが、ハイブリッドのTD法は、振る舞いポリティクスの遷移情報がより情報的な更新幾何をもたらすことを示唆している。
本稿では,主元・双対サドル点定式化における共分散度を,行動ポリチックなベルマン行列の対称部分と置き換える,STHTD-MPと呼ばれる行動誘発ミラー・プロキシ時間差法を提案する。
この方法は一次変数と補助変数の学習率を1つに保ち、結果として生じるハイブリッドサドル点演算子にミラー・プロキシ予測補正ステップを適用する。
我々は、標準的な確率近似の仮定の下で、固定政治線形予測の形式的収束解析を行い、行動誘発計量は正定値、結合平均系はフルヴィッツ、有界性はリャプノフの議論から続き、確率再帰はODE法によって収束する。
さらに、行列式ミラー・プロックス誤差行列のスペクトル半径に基づいて、投影軌道エルゴードギャップ境界とGTD2-MPとの正確な平均演算子比較を導出した。
解析の結果,STHTD-MPがGTD2-MPよりも小さい平均収縮係数を持つことが明らかとなった。
2状態、ランダムウォーク、およびボイアン・チェインのベンチマークにおける具体的な数値平均演算解析はこの条件を支持し、一方、ベアードの反例は厳密な仮定が失敗する特異な境界の場合として特定される。
関連論文リスト
- Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction [17.99246244661535]
本稿では,線形予測設定における補助共分散幾何の振る舞いを考慮した置換について検討する。
動作認識の代替は、いくつかのタスクにおいてそれ自体が有益であることを示すが、より厳しい設定で堅牢なパフォーマンスを実現するためには、定期化が必要である。
論文 参考訳(メタデータ) (2026-05-17T08:49:52Z) - Inversion-Free Natural Gradient Descent on Riemannian Manifolds [5.556612138252781]
本稿では,凸パラメータを持つ確率分布に対する逆フリーな自然勾配法を提案する。
多様体の設定にはいくつかの利点がある: パラメータ制約を暗黙的に強制することができる。
サブクアドラティックストレージの複雑さを伴うアルゴリズムの限定メモリ変種が提案されている。
論文 参考訳(メタデータ) (2026-04-03T11:08:59Z) - Euclidean Distance Matrix Completion via Asymmetric Projected Gradient Descent [25.846262685970164]
本稿では,Burer-Monteiro因子化に基づく勾配型アルゴリズムの提案と解析を行う。
部分ユークリッド距離測定から点集合構成を再構成する。
論文 参考訳(メタデータ) (2025-04-28T07:13:23Z) - Multivariate root-n-consistent smoothing parameter free matching estimators and estimators of inverse density weighted expectations [51.000851088730684]
我々は、パラメトリックな$sqrt n $-rateで収束する、最も近い隣人の新しい修正とマッチング推定器を開発する。
我々は,非パラメトリック関数推定器は含まないこと,特に標本サイズ依存パラメータの平滑化には依存していないことを強調する。
論文 参考訳(メタデータ) (2024-07-11T13:28:34Z) - Intrinsic Bayesian Cramér-Rao Bound with an Application to Covariance Matrix Estimation [49.67011673289242]
本稿では, 推定パラメータが滑らかな多様体内にある推定問題に対して, 新たな性能境界を提案する。
これはパラメータ多様体の幾何学と推定誤差測度の本質的な概念を誘導する。
論文 参考訳(メタデータ) (2023-11-08T15:17:13Z) - Quantifying predictive uncertainty of aphasia severity in stroke patients with sparse heteroscedastic Bayesian high-dimensional regression [47.1405366895538]
高次元データに対する疎線型回帰法は、通常、残留物が一定の分散を持つと仮定するが、これは実際には破ることができる。
本稿では,ヘテロセダスティック分割経験的ベイズ期待条件最大化アルゴリズムを用いて,高次元ヘテロセダスティック線形回帰モデルを推定する。
論文 参考訳(メタデータ) (2023-09-15T22:06:29Z) - Stochastic Mirror Descent: Convergence Analysis and Adaptive Variants
via the Mirror Stochastic Polyak Stepsize [20.376216873620763]
比較的滑らかで滑らかな凸最適化の下でのミラー降下(SMD)の収束について検討した。
我々は、新しい適応的なステップサイズスキーム、ミラーポリアクステップサイズ(mSPS)を提案する。
論文 参考訳(メタデータ) (2021-10-28T19:49:40Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Understanding Implicit Regularization in Over-Parameterized Single Index
Model [55.41685740015095]
我々は高次元単一インデックスモデルのための正規化自由アルゴリズムを設計する。
暗黙正則化現象の理論的保証を提供する。
論文 参考訳(メタデータ) (2020-07-16T13:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。