論文の概要: Algorithm-Relative Trajectory Valuation in Policy Gradient Control
- arxiv url: http://arxiv.org/abs/2511.07878v1
- Date: Wed, 12 Nov 2025 01:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.518423
- Title: Algorithm-Relative Trajectory Valuation in Policy Gradient Control
- Title(参考訳): ポリシーグラディエント制御におけるアルゴリズム関連軌道評価
- Authors: Shihao Li, Jiachen Li, Jiamin Xu, Christopher Martin, Wei Li, Dongmei Chen,
- Abstract要約: 政策段階制御において,軌道値が学習アルゴリズムにどう依存するかを考察する。
不確実なLQRにおけるトラジェクティブシェープを用いて,バニラReINFORCEの下でのPE(Persistence of Excitation)と限界値との負の相関を見出した。
- 参考スコア(独自算出の注目度): 12.29802562975378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study how trajectory value depends on the learning algorithm in policy-gradient control. Using Trajectory Shapley in an uncertain LQR, we find a negative correlation between Persistence of Excitation (PE) and marginal value under vanilla REINFORCE ($r\approx-0.38$). We prove a variance-mediated mechanism: (i) for fixed energy, higher PE yields lower gradient variance; (ii) near saddles, higher variance increases escape probability, raising marginal contribution. When stabilized (state whitening or Fisher preconditioning), this variance channel is neutralized and information content dominates, flipping the correlation positive ($r\approx+0.29$). Hence, trajectory value is algorithm-relative. Experiments validate the mechanism and show decision-aligned scores (Leave-One-Out) complement Shapley for pruning, while Shapley identifies toxic subsets.
- Abstract(参考訳): 政策段階制御において,軌道値が学習アルゴリズムにどう依存するかを考察する。
不確実な LQR において Trajectory Shapley を用いると、バニラREINFORCE(r\approx-0.38$)の下で、PE (Persistence of Excitation) と限界値の間に負の相関が生じる。
ばらつきを媒介するメカニズムを実証する。
i) 固定エネルギーの場合、高いPEは低い勾配分散をもたらす。
(ii)サドル付近では,高い分散度が脱走確率を高め,限界寄与を増加させる。
安定化(状態白化またはフィッシャープレコンディショニング)されると、この分散チャネルは中和され、情報内容が支配され、相関正(r\approx+0.29$)が反転する。
したがって、軌道値はアルゴリズム相対的である。
実験では、メカニズムを検証し、決定に整合したスコア(リーブ・ワン・アウト)がプルーニングのためにシャプリーを補完する一方、シャプリーは有毒なサブセットを識別する。
関連論文リスト
- Spurious Correlations in High Dimensional Regression: The Roles of Regularization, Simplicity Bias and Over-Parameterization [19.261178173399784]
学習モデルは、トレーニングデータ内の非予測的特徴と関連するラベルとの間に急激な相関関係があることが示されている。
我々は、データ共分散とリッジ正規化の強さの点から、線形回帰によって学習されたスプリアス相関の量$C$を定量化する。
論文 参考訳(メタデータ) (2025-02-03T13:38:42Z) - A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。
我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。
これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - TIC-TAC: A Framework for Improved Covariance Estimation in Deep Heteroscedastic Regression [109.69084997173196]
奥行き回帰は、予測分布の平均と共分散を負の対数類似度を用いて共同最適化する。
近年の研究では, 共分散推定に伴う課題により, 準最適収束が生じる可能性が示唆されている。
1)予測共分散は予測平均のランダム性を真に捉えているか?
その結果, TICは共分散を正確に学習するだけでなく, 負の対数類似性の収束性の向上も促進することがわかった。
論文 参考訳(メタデータ) (2023-10-29T09:54:03Z) - Doubly Robust Distributionally Robust Off-Policy Evaluation and Learning [59.02006924867438]
オフ政治評価と学習(OPE/L)は、オフラインの観察データを使用してより良い意思決定を行う。
近年の研究では、分散ロバストなOPE/L (DROPE/L) が提案されているが、この提案は逆正則重み付けに依存している。
KL分散不確実性集合を用いたDROPE/Lの最初のDRアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-19T20:00:44Z) - Differentiable Annealed Importance Sampling and the Perils of Gradient
Noise [68.44523807580438]
Annealed importance sample (AIS) と関連するアルゴリズムは、限界推定のための非常に効果的なツールである。
差別性は、目的として限界確率を最適化する可能性を認めるため、望ましい性質である。
我々はメトロポリス・ハスティングスのステップを放棄して微分可能アルゴリズムを提案し、ミニバッチ計算をさらに解き放つ。
論文 参考訳(メタデータ) (2021-07-21T17:10:14Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - VarGrad: A Low-Variance Gradient Estimator for Variational Inference [9.108412698936105]
我々は、VarGradが、離散VAE上の他の最先端推定器と比較して、トレードオフとトレードオフに有利なばらつきを提供することを示す。
論文 参考訳(メタデータ) (2020-10-20T16:46:01Z) - Comment: Entropy Learning for Dynamic Treatment Regimes [58.442274475425144]
JSLZのアプローチは、逆確率(IPW)に基づく与えられた決定規則の値の拒絶とサンプリングの見積もりと、その解釈を重み付けされた(またはコストに敏感な)分類として利用する。
彼らのスムーズな分類サロゲートの使用は、分布の分析に慎重なアプローチを可能にする。
IPWの推定は、ほとんどのデータを捨てる重みにつながり、残余については非常に変動しているため、問題となる。
論文 参考訳(メタデータ) (2020-04-06T16:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。