論文の概要: Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation
- arxiv url: http://arxiv.org/abs/2405.21043v2
- Date: Fri, 04 Oct 2024 18:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:41:58.255737
- Title: Target Networks and Over-parameterization Stabilize Off-policy Bootstrapping with Function Approximation
- Title(参考訳): 関数近似によるオフポジーブートストラップのターゲットネットワークと過パラメータ化の安定化
- Authors: Fengdi Che, Chenjun Xiao, Jincheng Mei, Bo Dai, Ramki Gummadi, Oscar A Ramirez, Christopher K Harris, A. Rupam Mahmood, Dale Schuurmans,
- Abstract要約: オフ・プライシ・データにおいても,ブートストラップ値推定の収束条件が弱くなることを証明する。
計算結果をトラジェクトリによる学習に拡張し、小さな修正を施した全てのタスクに対して収束が達成可能であることを示す。
- 参考スコア(独自算出の注目度): 47.08004958269403
- License:
- Abstract: We prove that the combination of a target network and over-parameterized linear function approximation establishes a weaker convergence condition for bootstrapped value estimation in certain cases, even with off-policy data. Our condition is naturally satisfied for expected updates over the entire state-action space or learning with a batch of complete trajectories from episodic Markov decision processes. Notably, using only a target network or an over-parameterized model does not provide such a convergence guarantee. Additionally, we extend our results to learning with truncated trajectories, showing that convergence is achievable for all tasks with minor modifications, akin to value truncation for the final states in trajectories. Our primary result focuses on temporal difference estimation for prediction, providing high-probability value estimation error bounds and empirical analysis on Baird's counterexample and a Four-room task. Furthermore, we explore the control setting, demonstrating that similar convergence conditions apply to Q-learning.
- Abstract(参考訳): 対象ネットワークと過度パラメータ化線形関数近似の組み合わせは、オフ政治データであっても、ブートストラップ値推定においてより弱い収束条件を確立することを証明している。
我々の状態は、状態-行動空間全体に対する期待された更新や、マルコフ決定過程からの完全な軌道のバッチによる学習に自然に満足している。
特に、ターゲットネットワークや過パラメータ化モデルのみを使用することで、そのような収束保証が得られない。
さらに, トラジェクトリにおける最終状態に対するトランジェクトリの値に似て, 微修正を施した全てのタスクに対して収束が達成可能であることを示すため, トラジェクトリによる学習に拡張する。
本研究の主な成果は,予測のための時間差推定,高確率値推定誤差境界の提供,およびBairdの反例と4室作業に関する実証分析である。
さらに、制御条件について検討し、類似の収束条件がQ-ラーニングに適用可能であることを示す。
関連論文リスト
- Statistical Inference for Temporal Difference Learning with Linear Function Approximation [62.69448336714418]
時間差差(TD)学習は、おそらく政策評価に最も広く使用されるものであり、この目的の自然な枠組みとして機能する。
本稿では,Polyak-Ruppert平均化と線形関数近似によるTD学習の整合性について検討し,既存の結果よりも3つの重要な改善点を得た。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Model Free Prediction with Uncertainty Assessment [7.524024486998338]
そこで本研究では,深部推定パラダイムを条件付き平均推定を行うプラットフォームに変換する新しいフレームワークを提案する。
本研究では, 条件付き拡散モデルに対する終端収束率を開発し, 生成した試料の正規性を確立する。
数値実験により,提案手法の有効性を実証的に検証した。
論文 参考訳(メタデータ) (2024-05-21T11:19:50Z) - Absolute convergence and error thresholds in non-active adaptive
sampling [0.27624021966289597]
非アクティブ適応サンプリングは、トレーニングベースから機械学習モデルを構築する方法である。
絶対収束と誤差しきい値を計算するための提案について述べる。
テストは私たちの期待に応え、自然言語処理の領域における提案を説明する。
論文 参考訳(メタデータ) (2024-02-04T15:10:34Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - Approximate Conditional Coverage via Neural Model Approximations [0.030458514384586396]
実験的に信頼性の高い近似条件付きカバレッジを得るためのデータ駆動手法を解析する。
我々は、限界範囲のカバレッジ保証を持つ分割型代替案で、実質的な(そして、そうでない)アンダーカバーの可能性を実証する。
論文 参考訳(メタデータ) (2022-05-28T02:59:05Z) - Domain-Adjusted Regression or: ERM May Already Learn Features Sufficient
for Out-of-Distribution Generalization [52.7137956951533]
既存の特徴から予測器を学習するためのよりシンプルな手法を考案することは、将来の研究にとって有望な方向である、と我々は主張する。
本稿では,線形予測器を学習するための凸目標である領域調整回帰(DARE)を紹介する。
自然モデルの下では、DARE解が制限されたテスト分布の集合に対する最小最適予測器であることを証明する。
論文 参考訳(メタデータ) (2022-02-14T16:42:16Z) - Robust Learning via Persistency of Excitation [4.674053902991301]
勾配勾配勾配を用いたネットワークトレーニングは力学系パラメータ推定問題と等価であることを示す。
極値理論を用いて対応するリプシッツ定数を推定する効率的な手法を提案する。
我々の手法は、様々な最先端の対数訓練モデルにおいて、対数精度を0.1%から0.3%に普遍的に向上させる。
論文 参考訳(メタデータ) (2021-06-03T18:49:05Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z) - GenDICE: Generalized Offline Estimation of Stationary Values [108.17309783125398]
重要なアプリケーションでは,効果的な推定が依然として可能であることを示す。
我々のアプローチは、定常分布と経験分布の差を補正する比率を推定することに基づいている。
結果として得られるアルゴリズム、GenDICEは単純で効果的である。
論文 参考訳(メタデータ) (2020-02-21T00:27:52Z) - Confounding-Robust Policy Evaluation in Infinite-Horizon Reinforcement
Learning [70.01650994156797]
教育医療などのバッチ強化学習において、観察データからのシーケンシャルな意思決定方針のオフ・アセスメントが必要である。
我々は、ある政策の境界を推定するアプローチを開発する。
より凝縮したデータを集めることで、シャープな境界への収束を証明します。
論文 参考訳(メタデータ) (2020-02-11T16:18:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。