論文の概要: RDA: Reward Design Agent for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2606.01672v1
- Date: Mon, 01 Jun 2026 04:29:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.982275
- Title: RDA: Reward Design Agent for Reinforcement Learning
- Title(参考訳): RDA:強化学習のためのリワードデザインエージェント
- Authors: Hojoon Lee, Ajay Subramanian, Ben Abbatematteo, Vijay Veerabadran, Pedro Matias, Karl Ridgeway, Nitin Kamra,
- Abstract要約: 本稿では,報酬設計に意味的理解を注入する VLM ベースのエージェントフレームワークである Reward Design Agent (RDA) を紹介する。
RDAはタスクを分解し、トラジェクトリを視覚的に評価し、障害モードを要約し、タスク命令との整合性を改善するために報酬コードを反復的に修正する。
- 参考スコア(独自算出の注目度): 8.97797869592679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning has enabled the acquisition of impressive robotic skills, but typically requires hand-crafted reward functions that are slow to design and difficult to align with human intentions. Recent work, such as Eureka, automates reward design by using an LLM to iteratively generate and refine reward code from task descriptions. However, they rely on coarse feedback signals such as success rate, which provide little semantic insight into the learned behavior. As a result, their trained policies achieve the final goal but are frequently poorly aligned with task instructions. We introduce the Reward Design Agent (RDA), a VLM-based agentic framework that injects semantic understanding into reward design. RDA decomposes tasks, visually evaluates trajectories, summarizes failure modes, and iteratively revises reward code to better align with task instructions. Across 12 tabletop manipulation tasks from ManiSkill and 4 whole-body manipulation tasks from HumanoidBench, RDA produces policies substantially more instruction-aligned than those of other baselines, while achieving comparable task success rates. Videos and the generated reward code are available on https://nitinkamra1992.github.io/reward-design-agent.
- Abstract(参考訳): 強化学習は、印象的なロボットスキルの獲得を可能にするが、通常は手作りの報酬関数を必要とする。
Eurekaのような最近の研究は、LLMを使用してタスク記述から報酬コードを反復的に生成し精算することで報酬設計を自動化する。
しかし、それらは成功率のような粗いフィードバック信号に依存しており、学習された振る舞いに関する意味的な洞察をほとんど提供しない。
結果として、トレーニングされたポリシーは最終目標を達成するが、多くの場合、タスク命令と不整合である。
本稿では,報酬設計に意味的理解を注入する VLM ベースのエージェントフレームワークである Reward Design Agent (RDA) を紹介する。
RDAはタスクを分解し、トラジェクトリを視覚的に評価し、障害モードを要約し、タスク命令との整合性を改善するために報酬コードを反復的に修正する。
ManiSkillの12のテーブルトップ操作タスクとHumanoidBenchの4つのボディ操作タスクにまたがって、RDAは他のベースラインのタスクよりも大幅に命令整合性があり、タスクの成功率に匹敵する。
ビデオと生成された報酬コードはhttps://nitinkamra 1992.github.io/reward-design-agentで公開されている。
関連論文リスト
- Generalizable Dense Reward for Long-Horizon Robotic Tasks [10.301325532021218]
VLM(Vision-Language Models)は、タスクを検証可能なサブタスクに分解する。
自己確実性は、PPOファインタニング全体を通じてステップごとの本質的なガイダンスを提供する。
CHORESベンチマークでは、VLLRは事前訓練されたポリシーよりも最大56%の絶対的な成功率を達成する。
論文 参考訳(メタデータ) (2026-03-31T02:05:07Z) - A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILe(Reinforced Learning)は、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。
本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft [88.80684763462384]
本稿では,Large Language Models (LLMs) を利用して高密度報酬関数を自動設計する,Auto MC-Rewardという高度な学習システムを提案する。
実験では、Minecraftの複雑なタスクにおいて、エージェントの成功率と学習効率が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-12-14T18:58:12Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。
代わりに、自然言語インターフェースを使って報酬を安く設計できますか?
本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文 参考訳(メタデータ) (2023-02-27T22:09:35Z) - Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning
for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。
本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文 参考訳(メタデータ) (2023-02-20T22:10:04Z) - A Study on Dense and Sparse (Visual) Rewards in Robot Policy Learning [19.67628391301068]
我々は,様々な種類の報酬の下で,複数の最先端の深層強化学習アルゴリズムの性能について検討した。
以上の結果から,視覚的疎度報酬は視覚的疎度報酬よりも優れており,全てのタスクに最適なアルゴリズムが存在しないことが示唆された。
論文 参考訳(メタデータ) (2021-08-06T17:47:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。