論文の概要: From Scalar Rewards to Potential Trends: Shaping Potential Landscapes for Model-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.03201v1
- Date: Tue, 03 Feb 2026 07:13:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.302952
- Title: From Scalar Rewards to Potential Trends: Shaping Potential Landscapes for Model-Based Reinforcement Learning
- Title(参考訳): Scalar Rewardsから潜在的トレンド:モデルベース強化学習のための潜在的景観形成
- Authors: Yao-Hui Li, Zeyu Wang, Xin Li, Wei Pang, Yingfang Yuan, Zhengkun Chen, Boya Zhang, Riashat Islam, Alex Lamb, Yonggang Zhang,
- Abstract要約: SLOPE (Shaping Landscapes with Optimistic potential Estimates) は、報酬モデリングをスカラー予測から情報的潜在的景観構築に移行する新しいフレームワークである。
SLOPEは楽観的な分布回帰を用いて高信頼な上限を推定し、希少な成功信号を増幅し、十分な探査勾配を確保する。
5つのベンチマークで30以上のタスクを評価すると、SLOPEは、完全にスパース、半スパース、密度の高い報酬において、ベースラインを一貫して上回っていることが示される。
- 参考スコア(独自算出の注目度): 22.59885243102632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based reinforcement learning (MBRL) achieves high sample efficiency by simulating future trajectories with learned dynamics and reward models. However, its effectiveness is severely compromised in sparse reward settings. The core limitation lies in the standard paradigm of regressing ground-truth scalar rewards: in sparse environments, this yields a flat, gradient-free landscape that fails to provide directional guidance for planning. To address this challenge, we propose Shaping Landscapes with Optimistic Potential Estimates (SLOPE), a novel framework that shifts reward modeling from predicting scalars to constructing informative potential landscapes. SLOPE employs optimistic distributional regression to estimate high-confidence upper bounds, which amplifies rare success signals and ensures sufficient exploration gradients. Evaluations on 30+ tasks across 5 benchmarks demonstrate that SLOPE consistently outperforms leading baselines in fully sparse, semi-sparse, and dense rewards.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、将来の軌道を学習力学と報酬モデルでシミュレートすることで、高いサンプル効率を達成する。
しかし、その効果はスパース報酬設定で著しく損なわれている。
基本的限界は、地道なスカラー報酬を回帰する標準的なパラダイムにある: まばらな環境では、これは平坦で勾配のない風景をもたらし、計画の方向性を示さない。
この課題に対処するため、我々は、報酬モデリングをスカラー予測から情報的潜在的景観構築に移行する新しいフレームワークであるSLOPE(Shaping Landscapes with Optimistic potential Estimates)を提案する。
SLOPEは楽観的な分布回帰を用いて高信頼な上限を推定し、希少な成功信号を増幅し、十分な探査勾配を確保する。
5つのベンチマークで30以上のタスクを評価すると、SLOPEは、完全にスパース、半スパース、密度の高い報酬において、ベースラインを一貫して上回っていることが示される。
関連論文リスト
- Generative Actor Critic [74.04971271003869]
Generative Actor Critic (GAC) は、軌道上での関節分布の生成モデル学習として、テキスト政治評価を反映して、シーケンシャルな意思決定を分離する新しいフレームワークである。
Gym-MuJoCoとMaze2Dベンチマークの実験では、GACの強いオフライン性能と、最先端の手法と比較してオフラインからオフラインへの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-12-25T06:31:11Z) - Tree-OPO: Off-policy Monte Carlo Tree-Guided Advantage Optimization for Multistep Reasoning [3.6333725470852443]
我々は,モンテカルロ木探索を緩和して,嗜好に基づく強化学習における政策最適化を改善する方法について検討する。
本稿では,部分的に明らかにされたMCTSロールアウトから完成度を導出するGRPOトレーニングパラダイムを提案する。
最初の結果は、構造化された利点推定は推論品質を安定させ、より良く反映できるが、利点飽和や報奨信号の崩壊といった課題は残ることを示唆している。
論文 参考訳(メタデータ) (2025-09-11T09:18:07Z) - Vision-driven River Following of UAV via Safe Reinforcement Learning using Semantic Dynamics Model [11.28895057233897]
無人航空機による視覚駆動の自律川は、救助、監視、環境監視といった用途に欠かせない。
本稿では,報酬優位関数を改良したMarginal Gain Advantage Estimationを紹介する。
次に, セマンティック・ダイナミクス・モデルを構築し, セマンティック・ダイナミクス・モデルを構築した。
第3に、コスト優位性評価のためにアクター、コスト推定器、SDMを統合するConstrained Actor Dynamics Estimatorアーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-08-13T17:39:09Z) - GoIRL: Graph-Oriented Inverse Reinforcement Learning for Multimodal Trajectory Prediction [35.36975133932852]
周囲のエージェントの軌道予測は自動運転の課題である。
本稿では,ベクトル化された文脈表現を備えたIRLベースの予測器であるグラフ指向逆強化学習フレームワークを提案する。
提案手法は,大規模Argoverse & nuScenesモーション予測ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-06-26T09:46:53Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning [1.26990070983988]
モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
仮想軌道のオンライン評価のための不確実性推定手法を提案する。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-05-12T15:04:07Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。