論文の概要: Trace-Mediated Peak Bias: Bridging Temporal Credit Assignment and Cognitive Heuristics in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.04735v1
- Date: Wed, 03 Jun 2026 11:19:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.700919
- Title: Trace-Mediated Peak Bias: Bridging Temporal Credit Assignment and Cognitive Heuristics in Deep Reinforcement Learning
- Title(参考訳): トレース・メディアによるピークバイアス: 深層強化学習における時間的クレジット割り当てと認知的ヒューリスティックス
- Authors: Viktor Veselý, Aleksandar Todorov, Erwan Escudie, Matthia Sabatelli,
- Abstract要約: TMPB(Trace-Mediated Peak Bias)と呼ばれる深層強化学習における系統的障害モードの同定
TMPBは遠位端の時間誤差を「勾配衝撃」に増幅するが、固定ステップサイズのトレースは正規化できない。
この結果から,分散システムにおけるクレジット代入の数学的制約から,人為的なサリエンシ歪みが自然に現れる可能性が示唆された。
- 参考スコア(独自算出の注目度): 40.28854207195064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal credit assignment is central to both biological and artificial intelligence, yet its interaction with non-linear function approximation is poorly understood. We identify a systematic failure mode in deep reinforcement learning (RL) termed Trace-Mediated Peak Bias (TMPB). At intermediate eligibility trace depths, agents irrationally prefer trajectories with high-magnitude reward ``peaks'' over alternatives with higher cumulative returns. This provides a mechanistic account of the Peak-End Rule: a human memory bias where experiences are judged by their most intense moments rather than integrated utility. We show that TMPB emerges because traces amplify distal Temporal Difference errors into ``gradient shocks'' that fixed-step-size Stochastic Gradient Descent cannot normalize, leading to global overestimation. Conversely, adaptive optimizers mitigate this pathology via second-moment normalization. Our results suggest that human-like saliency distortions may emerge naturally from the mathematical constraints of credit assignment in distributed systems, and that adaptive optimization is a theoretical necessity for rational value estimation.
- Abstract(参考訳): 時間的クレジット割り当ては、生物学的および人工知能の両方の中心であるが、非線形関数近似との相互作用は理解されていない。
深部強化学習(RL)における系統的障害モードをTMPB(Trace-Mediated Peak Bias)と呼ぶ。
中間可視性トレース深さでは、エージェントは高い累積リターンを持つ選択肢よりも、高次リターン ``peaks'' のトラジェクトリを不合理に好んでいる。
これは、Peak-End Rule: 統合ユーティリティではなく、最も激しい瞬間によって経験が判断される人間の記憶バイアスに関する力学的な説明を提供する。
TMPBは遠位端の時間差誤差を 'gradient shocks'' に増幅するので,固定段階の確率勾配は正規化できないため,大域的過大評価につながる。
逆に、適応オプティマイザは第二モーメント正規化によってこの病理を緩和する。
この結果から,分散システムにおける与信代入の数学的制約から,人間の様相のゆがみが自然に現れる可能性が示唆され,適応最適化が合理的値推定の理論的必要条件であることが示唆された。
関連論文リスト
- Joint Training of Multi-Token Prediction in Reinforcement Learning via Optimal Coefficient Calibration [61.46060073417047]
MTP(Multi-Token Prediction)は、事前トレーニングにおいて広く採用されているモジュールである。
RL目標に対するMPPの段差効果は,第1次相関と第2次ペナルティの2つの項に分解できることを示す。
本稿では,ログ確率プロキシを用いて最適係数を無視可能なコストでオンラインで追跡する適応型手法を提案する。
論文 参考訳(メタデータ) (2026-05-27T09:07:06Z) - Clipping Bottleneck: Stabilizing RLVR via Stochastic Recovery of Near-Boundary Signals [83.0127582612634]
Near-boundary Rescue (NSR) は最小限のプラグ・アンド・プレイの修正であり、失った信号を回復するために、アウト・オブ・バウンドトークンを保持する。
NSRはトレーニングの安定性を大幅に改善し、DAPOやGSPOといった強力なベースライン上で一貫したゲインを提供する。
論文 参考訳(メタデータ) (2026-05-21T16:45:31Z) - Model-Agnostic Solutions for Deep Reinforcement Learning in Non-Ergodic Contexts [3.5577285720638194]
強化学習(Reinforcement Learning, RL)は、機械学習における中心的な最適化フレームワークである。
ベルマン方程式は、ほとんどのRLアルゴリズムの中心であり、将来の報酬の期待値の観点から定式化されている。
非エルゴード環境では、アンサンブル平均は個々のエージェントが経験する平均的な成長から分岐する。
論文 参考訳(メタデータ) (2026-01-13T16:53:40Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - BAPE: Learning an Explicit Bayes Classifier for Long-tailed Visual Recognition [78.70453964041718]
現在のディープラーニングアルゴリズムは通常、後部確率を簡易に推定することで最適分類器を解く。
この単純な手法は、厳密にバランスのとれた学術ベンチマークデータセットに有効であることが証明されている。
しかし、これは現実世界の長い尾のデータ分布には適用できない。
本稿では,データ分布のより正確な理論的推定を行う新しい手法(BAPE)を提案する。
論文 参考訳(メタデータ) (2025-06-29T15:12:50Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Automatic debiasing of neural networks via moment-constrained learning [0.0]
偏差推定器の回帰関数をネーティブに学習し,対象関数のサンプル平均値を取得する。
本稿では,自動脱バイアスの欠点に対処する新しいRR学習手法として,モーメント制約学習を提案する。
論文 参考訳(メタデータ) (2024-09-29T20:56:54Z) - Gradient Descent for Deep Matrix Factorization: Dynamics and Implicit
Bias towards Low Rank [1.9350867959464846]
ディープラーニングでは、勾配発散は、よく一般化する解を好む傾向にある。
本稿では,線形ネットワークの簡易化における勾配降下のダイナミクスと推定問題について解析する。
論文 参考訳(メタデータ) (2020-11-27T15:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。