論文の概要: To bootstrap or to rollout? An optimal and adaptive interpolation
- arxiv url: http://arxiv.org/abs/2411.09731v1
- Date: Thu, 14 Nov 2024 19:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:55.687246
- Title: To bootstrap or to rollout? An optimal and adaptive interpolation
- Title(参考訳): ブートストラップかロールアウトか? 最適かつ適応的な補間
- Authors: Wenlong Mou, Jian Qian,
- Abstract要約: 本稿では,ブートストラップ法とロールアウト法を補間するベルマン演算子のクラスを紹介する。
我々の推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
- 参考スコア(独自算出の注目度): 4.755935781862859
- License:
- Abstract: Bootstrapping and rollout are two fundamental principles for value function estimation in reinforcement learning (RL). We introduce a novel class of Bellman operators, called subgraph Bellman operators, that interpolate between bootstrapping and rollout methods. Our estimator, derived by solving the fixed point of the empirical subgraph Bellman operator, combines the strengths of the bootstrapping-based temporal difference (TD) estimator and the rollout-based Monte Carlo (MC) methods. Specifically, the error upper bound of our estimator approaches the optimal variance achieved by TD, with an additional term depending on the exit probability of a selected subset of the state space. At the same time, the estimator exhibits the finite-sample adaptivity of MC, with sample complexity depending only on the occupancy measure of this subset. We complement the upper bound with an information-theoretic lower bound, showing that the additional term is unavoidable given a reasonable sample size. Together, these results establish subgraph Bellman estimators as an optimal and adaptive framework for reconciling TD and MC methods in policy evaluation.
- Abstract(参考訳): ブーストトラップとロールアウトは、強化学習(RL)における価値関数推定の2つの基本原理である。
ブートストラップ法とロールアウト法の間を補間するベルマン作用素という,ベルマン作用素の新たなクラスを導入する。
実験的な部分グラフBellman演算子の固定点を解くことで導かれた推定器は、ブートストラップに基づく時間差(TD)推定器とロールアウトに基づくモンテカルロ(MC)手法の強度を組み合わせる。
具体的には、我々の推定器の誤差上限は、状態空間の選択された部分集合の出口確率に依存する追加項で、TDによって達成される最適分散にアプローチする。
同時に、推定器はMCの有限サンプル適応性を示し、サンプルの複雑さはこの部分集合の占有度にのみ依存する。
上界を情報理論的下界で補うことで、追加項が合理的なサンプルサイズから避けられないことを示す。
これらの結果から,政策評価におけるTD法とMC法を最適かつ適応的な枠組みとしてベルマン推定器が確立された。
関連論文リスト
- Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Maximum a Posteriori Estimation for Linear Structural Dynamics Models Using Bayesian Optimization with Rational Polynomial Chaos Expansions [0.01578888899297715]
本稿では,MAP推定のための既存のスパースベイズ学習手法の拡張を提案する。
ベイズ最適化手法を導入し,実験設計を適応的に強化する。
疎性誘導学習と実験設計を組み合わせることで,モデル評価の回数を効果的に削減する。
論文 参考訳(メタデータ) (2024-08-07T06:11:37Z) - BLoB: Bayesian Low-Rank Adaptation by Backpropagation for Large Language Models [13.953203993774233]
大規模言語モデル(LLM)は、しばしば推論中に過剰な自信に悩まされる。
本稿では,LLMパラメータの平均値と共分散値を連続的に調整するアルゴリズムであるバックプロパゲーション(BLoB)によるベイズ低ランク適応を提案する。
その結果,分布内および分布外の両方で評価した場合,BLoBの有効性を一般化と不確実性評価の観点から検証した。
論文 参考訳(メタデータ) (2024-06-17T15:55:38Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Open-Set Likelihood Maximization for Few-Shot Learning [36.97433312193586]
我々はFew-Shot Open-Set Recognition (FSOSR) 問題、すなわちいくつかのラベル付きサンプルしか持たないクラスのインスタンスを分類する問題に取り組む。
提案手法では,推論時に非競合なクエリインスタンスを利用する。
既存のトランスダクティブ手法はオープンセットのシナリオではうまく動作しないという観測により,最大極大原理の一般化を提案する。
論文 参考訳(メタデータ) (2023-01-20T01:56:19Z) - Training Discrete Deep Generative Models via Gapped Straight-Through
Estimator [72.71398034617607]
再サンプリングのオーバーヘッドを伴わずに分散を低減するため, GST (Gapped Straight-Through) 推定器を提案する。
この推定子は、Straight-Through Gumbel-Softmaxの本質的な性質に着想を得たものである。
実験により,提案したGST推定器は,2つの離散的な深部生成モデリングタスクの強いベースラインと比較して,優れた性能を享受できることが示された。
論文 参考訳(メタデータ) (2022-06-15T01:46:05Z) - Tractable and Near-Optimal Adversarial Algorithms for Robust Estimation
in Contaminated Gaussian Models [1.609950046042424]
ハマーの汚染されたガウスモデルの下での位置と分散行列の同時推定の問題を考える。
まず,非パラメトリック判別器を用いた生成逆数法に対応する最小$f$-divergence推定法について検討した。
ネスト最適化により実装可能な,単純なスプライン判別器を用いたトラクタブル逆数アルゴリズムを開発した。
提案手法は,$f$-divergenceと使用したペナルティに応じて,最小値の最適値またはほぼ最適値を達成する。
論文 参考訳(メタデータ) (2021-12-24T02:46:51Z) - Robust and Adaptive Temporal-Difference Learning Using An Ensemble of
Gaussian Processes [70.80716221080118]
本稿では、時間差学習(TD)による政策評価の世代的視点について考察する。
OS-GPTDアプローチは、状態-逆ペアのシーケンスを観測することにより、与えられたポリシーの値関数を推定するために開発された。
1つの固定カーネルに関連する限られた表現性を緩和するために、GP前の重み付けアンサンブル(E)を用いて代替のスキームを生成する。
論文 参考訳(メタデータ) (2021-12-01T23:15:09Z) - Bayesian Bellman Operators [55.959376449737405]
ベイズ強化学習(RL)の新しい視点について紹介する。
我々のフレームワークは、ブートストラップが導入されたとき、モデルなしアプローチは実際には値関数ではなくベルマン作用素よりも後部を推測する、という洞察に動機づけられている。
論文 参考訳(メタデータ) (2021-06-09T12:20:46Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。