Fugu-MT 論文翻訳(概要): Automatic Reward Shaping from Multi-Objective Human Heuristics

論文の概要: Automatic Reward Shaping from Multi-Objective Human Heuristics

arxiv url: http://arxiv.org/abs/2512.15120v1
Date: Wed, 17 Dec 2025 06:24:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-18 17:06:26.875957
Title: Automatic Reward Shaping from Multi-Objective Human Heuristics
Title（参考訳）: 多目的ヒューリスティックからのリワード自動整形
Authors: Yuqing Xie, Jiayu Chen, Wenhao Tang, Ya Zhang, Chao Yu, Yu Wang,
Abstract要約: MORSE(Multi-Objective Reward Shaping with Exploration)は、複数の人間設計報酬を統一報酬関数に自動的に結合するフレームワークである。 MORSEは、様々なロボットタスクにまたがる複数の目的のバランスをとり、手動で調整された報酬関数で得られるものと同等のタスク性能を達成する。
参考スコア（独自算出の注目度）: 21.047816717480252
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Designing effective reward functions remains a central challenge in reinforcement learning, especially in multi-objective environments. In this work, we propose Multi-Objective Reward Shaping with Exploration (MORSE), a general framework that automatically combines multiple human-designed heuristic rewards into a unified reward function. MORSE formulates the shaping process as a bi-level optimization problem: the inner loop trains a policy to maximize the current shaped reward, while the outer loop updates the reward function to optimize task performance. To encourage exploration in the reward space and avoid suboptimal local minima, MORSE introduces stochasticity into the shaping process, injecting noise guided by task performance and the prediction error of a fixed, randomly initialized neural network. Experimental results in MuJoCo and Isaac Sim environments show that MORSE effectively balances multiple objectives across various robotic tasks, achieving task performance comparable to those obtained with manually tuned reward functions.
Abstract（参考訳）: 効果的な報酬関数を設計することは、強化学習、特に多目的環境における中心的な課題である。本研究では,複数の人間設計のヒューリスティック報酬を統一報酬関数に自動的に結合する汎用フレームワークであるMORSEを提案する。内部ループは現在の形状の報酬を最大化するためにポリシーを訓練し、外側ループはタスク性能を最適化するために報酬関数を更新する。 MORSEは、報酬空間の探索を奨励し、最適な局所最小値を回避するため、タスク性能に導かれるノイズと、固定されたランダムに初期化されたニューラルネットワークの予測誤差を注入し、シェーピングプロセスに確率性を導入する。 MuJoCoとIsaac Simの環境実験の結果、MORSEは様々なロボットタスク間で複数の目的を効果的にバランスさせ、手動で調整された報酬関数で得られるものと同等のタスク性能を達成する。

関連論文リスト

A Real-to-Sim-to-Real Approach to Robotic Manipulation with VLM-Generated Iterative Keypoint Rewards [29.923942622540356]
動的タスク仕様として機能するPythonベースの報酬関数であるIterative Keypoint Reward(IKER)を紹介する。我々はシミュレーションで現実のシーンを再構築し、生成した報酬を使って強化学習ポリシーを訓練する。この結果から,ロボットが動的環境下で複数ステップのタスクを行えるようにしたIKERの有効性が示唆された。
論文参考訳（メタデータ） (2025-02-12T18:57:22Z)
ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO) は、オンラインモデル選択問題としてシェーピング報酬関数の選択を枠組みとした、新しいアプローチである。 ORSOは、整形報酬関数を評価するのに必要なデータ量を著しく削減し、データ効率と計算時間(最大8倍)の大幅な削減をもたらす。 ORSOは、従来の手法よりも50%以上優れた高品質の報酬関数を一貫して識別し、平均的にポリシーを、ドメインの専門家が手作業で設計した報酬関数を使って学んだものと同様に、パフォーマンスとして識別する。
論文参考訳（メタデータ） (2024-10-17T17:55:05Z)
Automated Rewards via LLM-Generated Progress Functions [47.50772243693897]
大きな言語モデル(LLM)は、様々なタスクにまたがる広いドメイン知識を活用することで、報酬工学を自動化する可能性がある。本稿では,挑戦的なBi-DexHandsベンチマーク上で,最先端のポリシーを生成可能なLLM駆動の報酬生成フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-11T18:41:15Z)
RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文参考訳（メタデータ） (2023-10-29T13:45:07Z)
Go Beyond Imagination: Maximizing Episodic Reachability with World Models [68.91647544080097]
本稿では,GoBI-Go Beyond Imaginationという新たな固有報酬設計を提案する。学習した世界モデルを用いて、ランダムな動作で予測された将来の状態を生成する。本手法は,Minigridナビゲーションタスクの12の課題において,従来の最先端手法よりも大幅に優れていた。
論文参考訳（メタデータ） (2023-08-25T20:30:20Z)
Automatic Intrinsic Reward Shaping for Exploration in Deep Reinforcement Learning [55.2080971216584]
本稿では、強化学習(RL)における探索を強化するため、知的かつ適応的に高品質な固有報酬を提供する自動固有リワード整形法を提案する。我々は,多様な固有報酬手法の効率的かつ信頼性の高い実装を実現するために,固有報酬ツールキットを開発した。
論文参考訳（メタデータ） (2023-01-26T01:06:46Z)
Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文参考訳（メタデータ） (2022-08-09T17:29:49Z)
Online reinforcement learning with sparse rewards through an active inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文参考訳（メタデータ） (2021-06-04T10:03:36Z)
Efficient Exploration of Reward Functions in Inverse Reinforcement Learning via Bayesian Optimization [43.51553742077343]
逆強化学習(IRL)は、価値アライメントやデモからのロボット学習など、さまざまなタスクに関係している。本稿では,ベイズ最適化IRL(BO-IRL)と呼ばれるIRLフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-17T10:17:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。