論文の概要: Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction
- arxiv url: http://arxiv.org/abs/2605.28855v1
- Date: Sun, 17 May 2026 08:49:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:43.045446
- Title: Behavior-Aware Auxiliary Corrections for Off-Policy Temporal-Difference Prediction
- Title(参考訳): オフポリシィ時間差予測のための行動認識補助補正
- Authors: Xingguo Chen, Zhiang He, Yuchen Shen, Shangdong Yang, Chao Li, Guang Yang, Wenhao Wang,
- Abstract要約: 本稿では,線形予測設定における補助共分散幾何の振る舞いを考慮した置換について検討する。
動作認識の代替は、いくつかのタスクにおいてそれ自体が有益であることを示すが、より厳しい設定で堅牢なパフォーマンスを実現するためには、定期化が必要である。
- 参考スコア(独自算出の注目度): 17.99246244661535
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Temporal-difference learning with function approximation can be unstable under off-policy sampling. TDC stabilizes off-policy TD through an auxiliary covariance correction, and TDRC further regularizes this correction in a single-timescale recursion. This paper studies a behavior-aware replacement of the auxiliary covariance geometry in the linear prediction setting, which is the standard local model for understanding the feature-space dynamics of value-function approximation. We first replace the TDC auxiliary matrix (C) by the behavior Bellman matrix (A_μ), yielding BA-TDC, and then regularize the same behavior-aware equation to obtain BA-TDRC. This two-step construction separates the contribution of behavior-aware geometry from the contribution of regularization. The linear analysis also provides a tractable model for an auxiliary-geometry design question that arises in neural-network value approximation, where feature covariances and temporal transition matrices jointly shape the last-layer correction dynamics. We give a finite-state mean-system formulation, prove fixed-point preservation and almost-sure convergence under a Hurwitz stability condition on the instantiated mean system, and compare deterministic mean rates through the spectral radius of the exact linear error recursion. Experiments on the two-state counterexample, Baird's counterexample, Random Walk, and Boyan Chain show that the behavior-aware replacement can be highly beneficial by itself on some tasks, but that regularization is necessary for robust performance across harder settings.
- Abstract(参考訳): 関数近似による時間差学習は、オフ政治サンプリングにおいて不安定である。
TDCは補助共分散補正により外部のTDを安定化し、TDRCは単一時間スケールの再帰でこの補正を規則化する。
本稿では,値関数近似の特徴空間ダイナミクスを理解するための標準的局所モデルである線形予測設定において,補助共分散幾何の振る舞いを考慮した置換について検討する。
まず, 挙動ベルマン行列 (A_μ) によりTDC補助行列 (C) を置換し, BA-TDC を得るとともに, 同一の挙動を考慮した方程式を正則化し, BA-TDRC を得る。
この2段階の構成は、行動認識幾何学の寄与と正規化の寄与を分離する。
線形解析はまた、ニューラルネットワークの値近似で生じる補助幾何学設計問題に対して、特徴共分散と時間遷移行列が最終層補正ダイナミクスを結合的に形作る、抽出可能なモデルも提供する。
我々は,有限状態平均系を定式化し,Hurwitz安定化条件下での固定点保存とほぼ収束性を証明し,正確な線形誤差再帰のスペクトル半径による決定論的平均速度を比較する。
2状態の反例(Baird's counter example)、ランダムウォーク(Random Walk)、およびボイアン・チェイン(Boan Chain)の2状態の反例の実験では、動作認識の代替は、いくつかのタスクにおいてそれ自体が有益であるが、より厳しい設定で堅牢なパフォーマンスを実現するためには、規則化が必要であることが示されている。
関連論文リスト
- Behavior-Induced Mirror-Prox Temporal-Difference Learning for Faster Off-Policy Prediction [18.894707442188405]
STHTD-MPと呼ばれる行動誘発ミラープロキシ時間差分法を提案する。
STHTD-MPがGTD2-MPよりも小さい平均収縮係数を持つことを示す。
論文 参考訳(メタデータ) (2026-05-16T11:33:44Z) - Regularized Centered Emphatic Temporal Difference Learning [14.415762410365106]
関数近似を用いたオフ政治時間差学習(TD)は、安定性、投影幾何学、分散制御の間の構造的トレードオフに直面している。
強調的TD(ETD)は、追従的強調により、非政治的な射影幾何学を改善するが、追従的トレースは高いばらつきを持つ。
本稿では,後続トレースを保存し,補助中心再帰のみを正規化する,強調時間差学習(RETD)を提案する。
論文 参考訳(メタデータ) (2026-05-02T10:32:24Z) - Breaking the Stochasticity Barrier: An Adaptive Variance-Reduced Method for Variational Inequalities [0.0]
非コン最適化タスクのための新しいアルゴリズムとしてVR-A-A(VarianceReduced-Ascent with Armijo)を提案する。
本手法は,手動学習スケジューリングへの依存度を低減して,限界周期を効果的に抑制し,収束を加速することを示す。
論文 参考訳(メタデータ) (2026-01-30T14:43:07Z) - Adaptive Benign Overfitting (ABO): Overparameterized RLS for Online Learning in Non-stationary Time-series [0.0]
ABOは非常に正確で(ベースラインのカーネルメソッドと比較して)、20~40%のスピード改善を実現している。
結果は、安定したオンライン学習フレームワーク内で適応フィルタリング、カーネル近似、良性過剰適合をリンクする統一ビューを提供する。
論文 参考訳(メタデータ) (2026-01-29T15:58:01Z) - The Procrustean Bed of Time Series: The Optimization Bias of Point-wise Loss [53.542743390809356]
本稿では,最適化バイアス(EOB)の期待に関する第一原理解析を提案する。
時間列が決定論的で構造化されるほど、ポイントワイドの損失関数によるバイアスがより厳しくなる。
本稿では,DFTとDWTの両原理を同時に実現する具体的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-12-21T06:08:22Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - Euclidean Distance Matrix Completion via Asymmetric Projected Gradient Descent [25.846262685970164]
本稿では,Burer-Monteiro因子化に基づく勾配型アルゴリズムの提案と解析を行う。
部分ユークリッド距離測定から点集合構成を再構成する。
論文 参考訳(メタデータ) (2025-04-28T07:13:23Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Score-based Causal Representation Learning with Interventions [54.735484409244386]
本稿では,潜在因果変数を間接的に観察する際の因果表現学習問題について検討する。
目的は、 (i) 未知の線形変換(スケーリングまで)を回復し、 (ii) 潜在変数の下の有向非巡回グラフ(DAG)を決定することである。
論文 参考訳(メタデータ) (2023-01-19T18:39:48Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。