論文の概要: Automatic Reward Shaping from Multi-Objective Human Heuristics
- arxiv url: http://arxiv.org/abs/2512.15120v1
- Date: Wed, 17 Dec 2025 06:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.875957
- Title: Automatic Reward Shaping from Multi-Objective Human Heuristics
- Title(参考訳): 多目的ヒューリスティックからのリワード自動整形
- Authors: Yuqing Xie, Jiayu Chen, Wenhao Tang, Ya Zhang, Chao Yu, Yu Wang,
- Abstract要約: MORSE(Multi-Objective Reward Shaping with Exploration)は、複数の人間設計報酬を統一報酬関数に自動的に結合するフレームワークである。
MORSEは、様々なロボットタスクにまたがる複数の目的のバランスをとり、手動で調整された報酬関数で得られるものと同等のタスク性能を達成する。
- 参考スコア(独自算出の注目度): 21.047816717480252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing effective reward functions remains a central challenge in reinforcement learning, especially in multi-objective environments. In this work, we propose Multi-Objective Reward Shaping with Exploration (MORSE), a general framework that automatically combines multiple human-designed heuristic rewards into a unified reward function. MORSE formulates the shaping process as a bi-level optimization problem: the inner loop trains a policy to maximize the current shaped reward, while the outer loop updates the reward function to optimize task performance. To encourage exploration in the reward space and avoid suboptimal local minima, MORSE introduces stochasticity into the shaping process, injecting noise guided by task performance and the prediction error of a fixed, randomly initialized neural network. Experimental results in MuJoCo and Isaac Sim environments show that MORSE effectively balances multiple objectives across various robotic tasks, achieving task performance comparable to those obtained with manually tuned reward functions.
- Abstract(参考訳): 効果的な報酬関数を設計することは、強化学習、特に多目的環境における中心的な課題である。
本研究では,複数の人間設計のヒューリスティック報酬を統一報酬関数に自動的に結合する汎用フレームワークであるMORSEを提案する。
内部ループは現在の形状の報酬を最大化するためにポリシーを訓練し、外側ループはタスク性能を最適化するために報酬関数を更新する。
MORSEは、報酬空間の探索を奨励し、最適な局所最小値を回避するため、タスク性能に導かれるノイズと、固定されたランダムに初期化されたニューラルネットワークの予測誤差を注入し、シェーピングプロセスに確率性を導入する。
MuJoCoとIsaac Simの環境実験の結果、MORSEは様々なロボットタスク間で複数の目的を効果的にバランスさせ、手動で調整された報酬関数で得られるものと同等のタスク性能を達成する。
関連論文リスト
- A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。
我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。
この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文 参考訳(メタデータ) (2025-02-12T18:57:22Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement
Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。
我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文 参考訳(メタデータ) (2023-01-26T01:06:46Z) - Efficient Exploration of Reward Functions in Inverse Reinforcement
Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。
本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-17T10:17:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。