論文の概要: Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.02428v1
- Date: Wed, 4 Sep 2024 04:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:15:07.512536
- Title: Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning
- Title(参考訳): カスタム環境多目的強化学習のための効率的な逆関数探索器としての大規模言語モデル
- Authors: Guanwen Xie, Jingzehua Xu, Yiyuan Yang, Shuai Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、強化学習タスクにおける報酬関数の設計に使用できる。
本稿では,LLMを効果的にホワイトボックス検索に利用する方法を示す。
水中情報収集のRLタスクに,直接のフィードバックや報酬の例を使わずに,このフレームワークを適用した。
- 参考スコア(独自算出の注目度): 5.58216894263783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging large language models (LLMs) for designing reward functions demonstrates significant potential. However, achieving effective design and improvement of reward functions in reinforcement learning (RL) tasks with complex custom environments and multiple requirements presents considerable challenges. In this paper, we enable LLMs to be effective white-box searchers, highlighting their advanced semantic understanding capabilities. Specifically, we generate reward components for each explicit user requirement and employ the reward critic to identify the correct code form. Then, LLMs assign weights to the reward components to balance their values and iteratively search and optimize these weights based on the context provided by the training log analyzer, while adaptively determining the search step size. We applied the framework to an underwater information collection RL task without direct human feedback or reward examples (zero-shot). The reward critic successfully correct the reward code with only one feedback for each requirement, effectively preventing irreparable errors that can occur when reward function feedback is provided in aggregate. The effective initialization of weights enables the acquisition of different reward functions within the Pareto solution set without weight search. Even in the case where a weight is 100 times off, fewer than four iterations are needed to obtain solutions that meet user requirements. The framework also works well with most prompts utilizing GPT-3.5 Turbo, since it does not require advanced numerical understanding or calculation.
- Abstract(参考訳): 報酬関数を設計するための大きな言語モデル(LLM)を活用することは、大きな可能性を示している。
しかし、複雑なカスタム環境と複数の要件を持つ強化学習(RL)タスクにおいて、効果的な設計と報酬関数の改善が大きな課題となっている。
本稿では,LLMを効果的にホワイトボックス検索に利用し,その高度な意味理解能力を強調した。
具体的には、明示的なユーザ要求ごとに報酬成分を生成し、報酬批評家を用いて正しいコード形式を識別する。
そして、LLMは、トレーニングログアナライザによって提供されるコンテキストに基づいて、報酬成分に重みを割り当て、それらの重みを反復的に探索・最適化し、探索ステップサイズを適応的に決定する。
直接のフィードバックや報酬の例(ゼロショット)を伴わずに,水中情報収集RLタスクにフレームワークを適用した。
報酬批評家は、各要求に対して1つのフィードバックだけで報酬コードを修正し、報酬関数フィードバックが集約されたときに起こりうる不可分なエラーを効果的に防止する。
重み付けの効果的な初期化は、重み付けを伴わないパレート解集合内の異なる報酬関数の取得を可能にする。
ウェイトが100倍オフの場合であっても、ユーザ要求を満たすソリューションを得るためには、4回未満のイテレーションが必要になります。
このフレームワークは、高度な数値的な理解や計算を必要としないため、GPT-3.5 Turboを利用するほとんどのプロンプトともうまく機能する。
関連論文リスト
- OCALM: Object-Centric Assessment with Language Models [33.10137796492542]
本稿では,言語モデルを用いたオブジェクト指向アセスメント(OCALM)を提案し,強化学習エージェントに対して本質的に解釈可能な報酬関数を導出する。
OCALMは、リレーショナルな概念に焦点を当てた報酬関数を導出するために、言語モデルの広範な世界知識を使用する。
論文 参考訳(メタデータ) (2024-06-24T15:57:48Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement
Learning for Discrete Prompt Optimization [49.60729578316884]
RLベースの手法は、ユーザーが指定した報酬関数の集合を最大化するプロンプトの探索に使用できる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
本稿では,RLに基づく離散的なプロンプト最適化に,多目的最適化のためのいくつかの手法を適用する。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Learning Reward for Physical Skills using Large Language Model [5.795405764196473]
大規模言語モデルは、報酬関数の学習に役立つ貴重なタスク関連の知識を含んでいる。
本研究では,環境フィードバックを用いてLCMからタスク知識を抽出し,身体的スキルに対する効率的な報酬関数を作成することを目的とする。
論文 参考訳(メタデータ) (2023-10-21T19:10:06Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。