論文の概要: Breaking Habits: On the Role of the Advantage Function in Learning Causal State Representations
- arxiv url: http://arxiv.org/abs/2506.11912v1
- Date: Fri, 13 Jun 2025 16:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.86892
- Title: Breaking Habits: On the Role of the Advantage Function in Learning Causal State Representations
- Title(参考訳): ブレーキング・ハビット: 因果状態表現学習におけるアドバンテージ機能の役割について
- Authors: Miguel Suau,
- Abstract要約: 政策勾配法でよく用いられる利点関数は、勾配推定のばらつきを減少させる。
分析的および経験的証拠の両方で、有利な関数によるトレーニングが軌道外性能の向上につながることを示す。
- 参考スコア(独自算出の注目度): 4.514386953429771
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that reinforcement learning agents can develop policies that exploit spurious correlations between rewards and observations. This phenomenon, known as policy confounding, arises because the agent's policy influences both past and future observation variables, creating a feedback loop that can hinder the agent's ability to generalize beyond its usual trajectories. In this paper, we show that the advantage function, commonly used in policy gradient methods, not only reduces the variance of gradient estimates but also mitigates the effects of policy confounding. By adjusting action values relative to the state representation, the advantage function downweights state-action pairs that are more likely under the current policy, breaking spurious correlations and encouraging the agent to focus on causal factors. We provide both analytical and empirical evidence demonstrating that training with the advantage function leads to improved out-of-trajectory performance.
- Abstract(参考訳): 近年の研究では、強化学習エージェントが報酬と観察の間の素早い相関を生かした政策を立案できることが示されている。
この現象は、エージェントのポリシーが過去の観測変数と将来の観測変数の両方に影響を及ぼし、エージェントの通常の軌道を超えて一般化する能力を阻害するフィードバックループを生成するために生じる。
本稿では、政策勾配法でよく用いられる利点関数が、勾配推定のばらつきを低減させるだけでなく、政策収束の効果を緩和することを示した。
状態表現に対する作用値を調整することで、利点関数は現在の方針の下でより起こりやすい状態-作用ペアを下げ、急激な相関を破り、エージェントが因果要因に焦点を合わせるように促す。
分析的および経験的証拠の両方で、有利な関数によるトレーニングが軌道外性能の向上につながることを示す。
関連論文リスト
- Learning Causally Invariant Reward Functions from Diverse Demonstrations [6.351909403078771]
逆強化学習法は,マルコフ決定過程の報酬関数を,専門家によるデモンストレーションのデータセットに基づいて検索することを目的としている。
この適応は、環境力学の分布シフトの下で得られる報酬関数に基づいてポリシーが訓練されたときに、専門家データセットに過度に適合することが多い。
本研究では,報酬関数の一般化を目標とした因果不変原理に基づく逆強化学習手法の新しい正規化手法について検討する。
論文 参考訳(メタデータ) (2024-09-12T12:56:24Z) - Skill or Luck? Return Decomposition via Advantage Functions [15.967056781224102]
サンプル効率のよい強化学習には,非政治データからの学習が不可欠である。
その結果, 有利関数は, 反応が帰路に与える因果効果として理解できることが示唆された。
この分解により、直接アドバンテージ推定を外部設定に自然に拡張できます。
論文 参考訳(メタデータ) (2024-02-20T10:09:00Z) - Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Bad Habits: Policy Confounding and Out-of-Trajectory Generalization in RL [20.43882227518439]
強化学習エージェントは、特定の政策の下でのみ有効となる習慣を発達させる傾向がある。
本稿では,この現象の数学的特徴について述べる。
論文 参考訳(メタデータ) (2023-06-04T17:51:37Z) - Taylor Expansion of Discount Factors [56.46324239692532]
実効強化学習(RL)では、値関数を推定するために使われる割引係数は、評価目的を定義するために使われる値としばしば異なる。
本研究では,この割引要因の相違が学習中に与える影響について検討し,2つの異なる割引要因の値関数を補間する目的のファミリーを発見する。
論文 参考訳(メタデータ) (2021-06-11T05:02:17Z) - On Proximal Policy Optimization's Heavy-tailed Gradients [150.08522793940708]
近位政策最適化による報酬関数の勾配の重み付き性質について検討した。
本稿では,標準的なppoクリッピングの効果について検討し,グラデーションの重み付けを相殺する効果があることを示した。
3つのクリッピングトリックの代替として,高次元ロバストな推定器であるGMOMをPPOに組み込むことを提案する。
論文 参考訳(メタデータ) (2021-02-20T05:51:28Z) - Fighting Copycat Agents in Behavioral Cloning from Observation Histories [85.404120663644]
模倣学習は、入力観察から専門家が選択したアクションにマップするポリシーを訓練する。
本稿では,従来の専門家の行動ニュアンスに関する過剰な情報を除去する特徴表現を学習するための敵対的アプローチを提案する。
論文 参考訳(メタデータ) (2020-10-28T10:52:10Z) - Learning "What-if" Explanations for Sequential Decision-Making [92.8311073739295]
実世界の意思決定の解釈可能なパラメータ化を実証行動に基づいて構築することが不可欠である。
そこで我々は,「何」の結果に対する嗜好の観点から,報酬関数をモデル化し,専門家による意思決定の学習的説明を提案する。
本研究は,行動の正確かつ解釈可能な記述を回復する上で,実効的逆強化学習手法であるバッチの有効性を強調した。
論文 参考訳(メタデータ) (2020-07-02T14:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。