Fugu-MT 論文翻訳(概要): On the "Causality" Step in Policy Gradient Derivations: A Pedagogical Reconciliation of Full Return and Reward-to-Go

論文の概要: On the "Causality" Step in Policy Gradient Derivations: A Pedagogical Reconciliation of Full Return and Reward-to-Go

arxiv url: http://arxiv.org/abs/2604.04686v1
Date: Mon, 06 Apr 2026 13:53:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.210937
Title: On the "Causality" Step in Policy Gradient Derivations: A Pedagogical Reconciliation of Full Return and Reward-to-Go
Title（参考訳）: 政策グラディエントデリバティブの「因果性」ステップ--完全帰路と帰路のペダゴジカルな和解-
Authors: Nima H. Siboni,
Abstract要約: 政策勾配の入門的なプレゼンテーションでは、完全な軌道回帰を用いたREINFORCE推定器を導出することが多い。しばしば厳密なレベルで提示され、過去の逆転の言葉がどこに消えているのかははっきりしない。本稿では,そのステップを分離し,前置軌跡分布とスコア関数の同一性に基づく数学的に明示的な導出を与える。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In introductory presentations of policy gradients, one often derives the REINFORCE estimator using the full trajectory return and then states, by ``causality,'' that the full return may be replaced by the reward-to-go. Although this statement is correct, it is frequently presented at a level of rigor that leaves unclear where the past-reward terms disappear. This short paper isolates that step and gives a mathematically explicit derivation based on prefix trajectory distributions and the score-function identity. The resulting account does not change the estimator. Its contribution is conceptual: instead of presenting reward-to-go as a post hoc unbiased replacement for full return, it shows that reward-to-go arises directly once the objective is decomposed over prefix trajectories. In this formulation, the usual causality argument is recovered as a corollary of the derivation rather than as an additional heuristic principle.
Abstract（参考訳）: 政策勾配の入門的なプレゼンテーションでは、完全な軌道回帰を用いたREINFORCE推定器を導出し、次に 'Causality' によって、完全な回帰は「報奨」に置き換えられる可能性があることを述べる。この文は正しいが、しばしば厳密なレベルで提示され、過去の逆の言葉がどこに消えているのかははっきりしない。本稿では,そのステップを分離し,前置軌跡分布とスコア関数の同一性に基づく数学的に明示的な導出を与える。結果のアカウントは推定値を変えない。コントリビューションは概念的であり、完全なリターンに対するポストホックなアンバイアスの代替として報酬対ゴーを提示するのではなく、目的がプレフィックス軌道上に分解された後に報酬対ゴーが直接現れることを示す。この定式化において、通常の因果論証は、追加のヒューリスティック原理としてではなく、導出の系として回収される。

関連論文リスト

Rethinking KL Regularization in RLHF: From Value Estimation to Gradient Optimization [6.136585583991053]
Reinforcement Learning from Human Feedback (RLHF) は、Kulback-Leibler (KL) の分散損失を利用してトレーニングを安定させ、オーバーフィッティングを防ぐ。 GRPOのような手法では、数値値の推定からその実装を導出することができる。
論文参考訳（メタデータ） (2025-10-02T01:00:02Z)
Likelihood Reward Redistribution [0.0]
本稿では,報酬再分配のためのEmphLikelihood Reward Redistribution (LRR) フレームワークを提案する。ソフトアクター・クライブのような非政治的アルゴリズムと統合すると、LRRは密度が高く情報的な報奨信号を生成する。
論文参考訳（メタデータ） (2025-03-20T20:50:49Z)
Interpretable Reward Redistribution in Reinforcement Learning: A Causal Approach [45.83200636718999]
強化学習における大きな課題は、将来の報酬にどの状態-作用ペアが責任を持つかを決定することである。我々は、因果的な観点から、状態と行動の貢献を明示的にモデル化し、解釈可能な報酬の再分配をもたらすことを提案する。実験の結果,本手法は最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2023-05-28T21:51:38Z)
Partial advantage estimator for proximal policy optimization [0.0]
Generalized Advantage Estimation (GAE) は、$lambda$-returnのような利点関数の指数的に重み付けされた推定器である。現実的な応用では、軌道の不完全性により切り離されたGAEが使われ、推定時に大きなバイアスが生じる。本稿では,不完全な軌道の偏りを著しく低減する更新計算において,その一部を取ることを提案する。
論文参考訳（メタデータ） (2023-01-26T03:42:39Z)
Reward Imputation with Sketching for Contextual Batched Bandits [48.80803376405073]
コンテキストバッチバンドイット(Contextual batched bandit、CBB)は、各エピソードの最後に環境から報酬のバッチを観測する設定である。 CBBの既存のアプローチは、実行されていないアクションの報酬を無視し、フィードバック情報の未利用につながることが多い。本研究では,未観測の報酬をスケッチを用いて完遂するSketched Policy Updating with Imputed Rewards (SPUIR)を提案する。
論文参考訳（メタデータ） (2022-10-13T04:26:06Z)
On the Importance of Gradient Norm in PAC-Bayesian Bounds [92.82627080794491]
対数ソボレフ不等式の縮約性を利用する新しい一般化法を提案する。我々は、この新たな損失段階的ノルム項が異なるニューラルネットワークに与える影響を実証的に分析する。
論文参考訳（メタデータ） (2022-10-12T12:49:20Z)
Implicit Regularization in ReLU Networks with the Square Loss [56.70360094597169]
モデルパラメータの明示的な関数によって、平方損失による暗黙の正規化を特徴付けることは不可能であることを示す。非線形予測器の暗黙的正規化を理解するためには,より一般的な枠組みが必要であることが示唆された。
論文参考訳（メタデータ） (2020-12-09T16:48:03Z)
Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文参考訳（メタデータ） (2020-08-13T17:49:18Z)
Approximation Schemes for ReLU Regression [80.33702497406632]
我々はReLU回帰の根本的な問題を考察する。目的は、未知の分布から引き出された2乗損失に対して、最も適したReLUを出力することである。
論文参考訳（メタデータ） (2020-05-26T16:26:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。