Fugu-MT 論文翻訳(概要): A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning

論文の概要: A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning

arxiv url: http://arxiv.org/abs/2410.14660v1
Date: Fri, 18 Oct 2024 17:51:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.598838
Title: A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning
Title（参考訳）: 動的フィードバックによる強化学習による大規模言語モデル駆動リワード設計フレームワーク
Authors: Shengjie Sun, Runze Liu, Jiafei Lyu, Jing-Wen Yang, Liangpeng Zhang, Xiu Li,
Abstract要約: CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。 CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
参考スコア（独自算出の注目度）: 25.82540393199001
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have shown significant potential in designing reward functions for Reinforcement Learning (RL) tasks. However, obtaining high-quality reward code often involves human intervention, numerous LLM queries, or repetitive RL training. To address these issues, we propose CARD, a LLM-driven Reward Design framework that iteratively generates and improves reward function code. Specifically, CARD includes a Coder that generates and verifies the code, while a Evaluator provides dynamic feedback to guide the Coder in improving the code, eliminating the need for human feedback. In addition to process feedback and trajectory feedback, we introduce Trajectory Preference Evaluation (TPE), which evaluates the current reward function based on trajectory preferences. If the code fails the TPE, the Evaluator provides preference feedback, avoiding RL training at every iteration and making the reward function better aligned with the task objective. Empirical results on Meta-World and ManiSkill2 demonstrate that our method achieves an effective balance between task performance and token efficiency, outperforming or matching the baselines across all tasks. On 10 out of 12 tasks, CARD shows better or comparable performance to policies trained with expert-designed rewards, and our method even surpasses the oracle on 3 tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、強化学習(RL)タスクの報酬関数を設計する上で大きな可能性を示している。しかし、高品質な報酬コードを取得するには、人間の介入、多数のLLMクエリ、反復的なRLトレーニングが伴うことが多い。これらの問題に対処するため,LLM駆動のリワードデザインフレームワークであるCARDを提案する。具体的には、CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供し、人間のフィードバックは不要である。プロセスフィードバックとトラジェクトリフィードバックに加えて、トラジェクトリ優先評価(TPE)を導入し、トラジェクトリ嗜好に基づいて現在の報酬関数を評価する。コードがTPEに失敗した場合、Evaluatorは優先的なフィードバックを提供し、イテレーション毎にRLトレーニングを回避し、タスクの目的に合わせて報酬関数を適合させる。 Meta-World と ManiSkill2 の実証的な結果から,本手法はタスク性能とトークン効率の効果的なバランスを達成し,すべてのタスクにおけるベースラインのパフォーマンスや整合性を示す。 12タスク中10タスクにおいて、CARDは専門家が設計した報酬で訓練されたポリシーよりも優れた、あるいは同等のパフォーマンスを示します。

関連論文リスト

Leveraging LLMs for reward function design in reinforcement learning control tasks [0.0]
本稿では,LEARN-Opt (LLM-based Evaluator and Analyzer for Reward functioN Optimization)を紹介する。このフレームワークは、システムやタスク目標のテキスト記述から報酬関数候補を生成し、実行し、評価する。実験の結果,LEARN-Optは最先端手法に匹敵する性能を示した。
論文参考訳（メタデータ） (2025-11-24T17:55:46Z)
Test-driven Reinforcement Learning [1.1142354615369274]
本稿では,テスト駆動型強化学習(TdRL)フレームワークを提案する。 TdRLでは、単一の報酬関数ではなくタスク目的を表すために複数のテスト関数が使用される。政策訓練において,TdRLは手作り報酬法に適合し,性能が向上することを示す。
論文参考訳（メタデータ） (2025-11-11T06:58:52Z)
Benchmarking Multimodal CoT Reward Model Stepwise by Visual Program [96.79600297158271]
ステップレベルの多次元Chain-of-Thought(CoT)報酬モデルを自動的に学習する新しい手法であるSVIPを提案する。視覚的なタスクを解決するためのコードを生成し、コードブロックの分析をトレーニングサンプルとしてCoTステップの評価に変換する。 SVIP-Rewardは、トレーニングや推論時間スケーリングにおけるMLLMのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2025-04-09T06:09:40Z)
RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文参考訳（メタデータ） (2024-11-13T02:45:21Z)
Process Supervision-Guided Policy Optimization for Code Generation [15.943210767010045]
単体テストフィードバックによる強化学習(RL)は、大規模言語モデルのLLM(LLM)コード生成を強化したが、完全なコード評価後にのみ提供されるスパース報酬に依存している。本稿では,人間のコード修正を模倣したプロセス・リワード・モデル(PRM)を提案する。
論文参考訳（メタデータ） (2024-10-23T07:22:33Z)
REvolve: Reward Evolution with Large Language Models using Human Feedback [6.4550546442058225]
大規模言語モデル(LLM)は、自然言語のタスク記述から報酬を生成するために使われてきた。人間のフィードバックによって導かれるLLMは、人間の暗黙の知識を反映する報酬関数を定式化するのに用いられる。強化学習における報酬設計にLLMを使用する,真に進化的なフレームワークであるRevolveを紹介する。
論文参考訳（メタデータ） (2024-06-03T13:23:27Z)
Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文参考訳（メタデータ） (2024-04-30T18:58:33Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文参考訳（メタデータ） (2024-01-11T17:58:41Z)
REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文参考訳（メタデータ） (2023-12-22T04:56:37Z)
Auto MC-Reward: Automated Dense Reward Design with Large Language Models for Minecraft [88.80684763462384]
本稿では,Large Language Models (LLMs) を利用して高密度報酬関数を自動設計する,Auto MC-Rewardという高度な学習システムを提案する。実験では、Minecraftの複雑なタスクにおいて、エージェントの成功率と学習効率が大幅に向上したことを示す。
論文参考訳（メタデータ） (2023-12-14T18:58:12Z)
Iterative Reward Shaping using Human Feedback for Correcting Reward Misspecification [15.453123084827089]
ITERSは、人間のフィードバックを用いて、不特定報酬関数の効果を緩和する反復的な報酬形成手法である。 ITERSを3つの環境で評価し,不特定報酬関数の修正に成功していることを示す。
論文参考訳（メタデータ） (2023-08-30T11:45:40Z)
Reward Design with Language Models [27.24197025688919]
強化学習におけるリワード設計(Reward design in reinforcement learning, RL)は、人間の望ましい行動の概念を特定することは、報酬関数や専門家によるデモンストレーションを必要とするため困難である。代わりに、自然言語インターフェースを使って報酬を安く設計できますか? 本稿では,代用報酬関数として GPT-3 などの大規模言語モデル (LLM) を提案する。
論文参考訳（メタデータ） (2023-02-27T22:09:35Z)
Fantastic Rewards and How to Tame Them: A Case Study on Reward Learning for Task-oriented Dialogue Systems [111.80916118530398]
強化学習(RL)技術は、ユーザ固有の目標を達成するための対話戦略を訓練するために、自然に利用することができる。本稿では,エンド・ツー・エンド(E2E)TODエージェントのトレーニングにおいて,報酬関数を効果的に学習し,活用する方法という疑問に答えることを目的とする。
論文参考訳（メタデータ） (2023-02-20T22:10:04Z)
Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文参考訳（メタデータ） (2021-02-24T18:46:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。