論文の概要: StepScorer: Accelerating Reinforcement Learning with Step-wise Scoring and Psychological Regret Modeling
- arxiv url: http://arxiv.org/abs/2602.03171v1
- Date: Tue, 03 Feb 2026 06:39:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.287974
- Title: StepScorer: Accelerating Reinforcement Learning with Step-wise Scoring and Psychological Regret Modeling
- Title(参考訳): StepScorer: ステップワイズ・スコーリングと心理的レグレト・モデリングによる強化学習の促進
- Authors: Zhe Xu,
- Abstract要約: 本稿では, 心理的回帰モデル(PRM)を導入し, 各意思決定ステップの後に, 後悔に基づくフィードバック信号を取り入れることで学習を加速する手法を提案する。
我々はPRMがLunar Landerのようなベンチマーク環境で従来のPPOよりも約36%高速に安定した性能を実現することを示した。
以上の結果から, PRMは, ロボット工学, 金融学, 適応教育などの現実的な応用に適合し, フィードバックが遅れた連続制御タスクや環境に特に有効であることが示された。
- 参考スコア(独自算出の注目度): 4.454674305657783
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Reinforcement learning algorithms often suffer from slow convergence due to sparse reward signals, particularly in complex environments where feedback is delayed or infrequent. This paper introduces the Psychological Regret Model (PRM), a novel approach that accelerates learning by incorporating regret-based feedback signals after each decision step. Rather than waiting for terminal rewards, PRM computes a regret signal based on the difference between the expected value of the optimal action and the value of the action taken in each state. This transforms sparse rewards into dense feedback signals through a step-wise scoring framework, enabling faster convergence. We demonstrate that PRM achieves stable performance approximately 36\% faster than traditional Proximal Policy Optimization (PPO) in benchmark environments such as Lunar Lander. Our results indicate that PRM is particularly effective in continuous control tasks and environments with delayed feedback, making it suitable for real-world applications such as robotics, finance, and adaptive education where rapid policy adaptation is critical. The approach formalizes human-inspired counterfactual thinking as a computable regret signal, bridging behavioral economics and reinforcement learning.
- Abstract(参考訳): 強化学習アルゴリズムは、特にフィードバックの遅れや頻度の低い複雑な環境では、粗末な報酬信号による緩やかな収束に悩まされることが多い。
本稿では, 心理的回帰モデル(PRM)を導入し, 各意思決定ステップの後に, 後悔に基づくフィードバック信号を取り入れることで学習を加速する手法を提案する。
PRMは、端末の報酬を待つのではなく、最適なアクションの期待値と各状態で取られたアクションの値との差に基づいて、後悔信号を算出する。
これにより、スパース報酬をステップワイズスコアリングフレームワークを通じて、密集したフィードバック信号に変換することで、より高速な収束を可能にする。
我々は,Lunar Landerなどのベンチマーク環境において,従来のPPOよりも約36倍高速に安定した性能を実現することを実証した。
提案手法は, ロボット工学, 金融学, 適応教育など, 迅速な政策適応が重要となる現実的な応用に適していると考えられる。
このアプローチは、人間にインスパイアされた反現実的思考を、計算可能な後悔の信号、行動経済学のブリッジング、強化学習として定式化する。
関連論文リスト
- Alternating Reinforcement Learning for Rubric-Based Reward Modeling in Non-Verifiable LLM Post-Training [29.56905427210088]
Gragient-ARMは、好みのフィードバックから強化学習を使用するルーリックジェネレータとジャッジを共同で最適化するフレームワークである。
ベンチマークのベースライン間で、勾配-ARMは最先端のパフォーマンスを達成し、オフラインおよびオンラインの強化学習設定において、ダウンストリームポリシーアライメントを大幅に改善することを示す。
論文 参考訳(メタデータ) (2026-02-02T00:50:53Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Good Learners Think Their Thinking: Generative PRM Makes Large Reasoning Model More Efficient Math Learner [31.033131727230277]
大規模推論モデル(LRM)は、Reinforcement Learning (RL) で最適化された複雑な数学問題の解法において、最近約束されている。
本稿では,RLに基づく学習における大きなボトルネックに対処するため,思考レベルで機能する固有信号駆動型生成過程評価機構を提案する。
1.5B と 7B のパラメータ LRM を用いた実験により,結果のみの報酬ベースラインよりもトレーニングサンプルが有意に少ない問題解精度が得られた。
論文 参考訳(メタデータ) (2025-07-31T07:54:58Z) - Noise-based reward-modulated learning [1.0851051226732167]
雑音に基づく報酬変調学習は、新しいシナプス的可塑性規則である。
NRLはバックプロパゲーションを用いて最適化されたベースラインに匹敵する性能を示す。
その結果,低消費電力適応システムにおける雑音駆動型脳誘発学習の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-03-31T11:35:23Z) - Fast Training of Recurrent Neural Networks with Stationary State Feedbacks [48.22082789438538]
リカレントニューラルネットワーク(RNN)は最近、Transformerよりも強力なパフォーマンスと高速な推論を実証している。
BPTTを固定勾配フィードバック機構で置き換える新しい手法を提案する。
論文 参考訳(メタデータ) (2025-03-29T14:45:52Z) - Prior Constraints-based Reward Model Training for Aligning Large Language Models [58.33118716810208]
本稿では,この問題を解決するために,事前制約に基づくリワードモデル(PCRM)のトレーニング手法を提案する。
PCRMは、前回の制約、特に各比較ペアの出力間の長さ比とコサイン類似性を、最適化の規模を調節しスコアマージンを制御するための報酬モデルトレーニングに組み入れている。
実験結果から,PCRMは報酬スコアのスケーリングを効果的に抑制することによりアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-04-01T07:49:11Z) - Imitating, Fast and Slow: Robust learning from demonstrations via
decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。
IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:16:52Z) - Enhancing reinforcement learning by a finite reward response filter with
a case study in intelligent structural control [0.0]
多くの強化学習(RL)問題では、エージェントの作用が環境に最大限の影響を及ぼすまで、しばらく時間がかかる。
本稿では,学習段階の開始時にエージェントがひとつの行動をとる,適用可能な拡張Q-ラーニング手法を提案する。
本研究では, 地震応答を受ける建物の振動を所定遅延で低減することを目的とした構造制御問題に対して, 提案手法を適用した。
論文 参考訳(メタデータ) (2020-10-25T19:28:35Z) - Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。
AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。
本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2020-10-21T14:49:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。