論文の概要: Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.02428v1
- Date: Wed, 4 Sep 2024 04:15:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 20:15:07.512536
- Title: Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning
- Title(参考訳): カスタム環境多目的強化学習のための効率的な逆関数探索器としての大規模言語モデル
- Authors: Guanwen Xie, Jingzehua Xu, Yiyuan Yang, Shuai Zhang,
- Abstract要約: 大規模言語モデル(LLM)は、強化学習タスクにおける報酬関数の設計に使用できる。
本稿では,LLMを効果的にホワイトボックス検索に利用する方法を示す。
水中情報収集のRLタスクに,直接のフィードバックや報酬の例を使わずに,このフレームワークを適用した。
- 参考スコア(独自算出の注目度): 5.58216894263783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leveraging large language models (LLMs) for designing reward functions demonstrates significant potential. However, achieving effective design and improvement of reward functions in reinforcement learning (RL) tasks with complex custom environments and multiple requirements presents considerable challenges. In this paper, we enable LLMs to be effective white-box searchers, highlighting their advanced semantic understanding capabilities. Specifically, we generate reward components for each explicit user requirement and employ the reward critic to identify the correct code form. Then, LLMs assign weights to the reward components to balance their values and iteratively search and optimize these weights based on the context provided by the training log analyzer, while adaptively determining the search step size. We applied the framework to an underwater information collection RL task without direct human feedback or reward examples (zero-shot). The reward critic successfully correct the reward code with only one feedback for each requirement, effectively preventing irreparable errors that can occur when reward function feedback is provided in aggregate. The effective initialization of weights enables the acquisition of different reward functions within the Pareto solution set without weight search. Even in the case where a weight is 100 times off, fewer than four iterations are needed to obtain solutions that meet user requirements. The framework also works well with most prompts utilizing GPT-3.5 Turbo, since it does not require advanced numerical understanding or calculation.
- Abstract(参考訳): 報酬関数を設計するための大きな言語モデル(LLM)を活用することは、大きな可能性を示している。
しかし、複雑なカスタム環境と複数の要件を持つ強化学習(RL)タスクにおいて、効果的な設計と報酬関数の改善が大きな課題となっている。
本稿では,LLMを効果的にホワイトボックス検索に利用し,その高度な意味理解能力を強調した。
具体的には、明示的なユーザ要求ごとに報酬成分を生成し、報酬批評家を用いて正しいコード形式を識別する。
そして、LLMは、トレーニングログアナライザによって提供されるコンテキストに基づいて、報酬成分に重みを割り当て、それらの重みを反復的に探索・最適化し、探索ステップサイズを適応的に決定する。
直接のフィードバックや報酬の例(ゼロショット)を伴わずに,水中情報収集RLタスクにフレームワークを適用した。
報酬批評家は、各要求に対して1つのフィードバックだけで報酬コードを修正し、報酬関数フィードバックが集約されたときに起こりうる不可分なエラーを効果的に防止する。
重み付けの効果的な初期化は、重み付けを伴わないパレート解集合内の異なる報酬関数の取得を可能にする。
ウェイトが100倍オフの場合であっても、ユーザ要求を満たすソリューションを得るためには、4回未満のイテレーションが必要になります。
このフレームワークは、高度な数値的な理解や計算を必要としないため、GPT-3.5 Turboを利用するほとんどのプロンプトともうまく機能する。
関連論文リスト
- Few-shot In-Context Preference Learning Using Large Language Models [15.84585737510038]
報酬関数の設計は強化学習の中核的な要素である。
報酬を学ぶことは、しばしばタトゥーラ・ラサを学ぶため、非常に非効率である。
In-Context Preference Learning (ICPL) を提案する。
論文 参考訳(メタデータ) (2024-10-22T17:53:34Z) - Exploring RL-based LLM Training for Formal Language Tasks with Programmed Rewards [49.7719149179179]
本稿では,PPOを用いた強化学習(RL)の実現可能性について検討する。
我々は,生成した出力の質を自動的に評価するために,明示的な報酬関数をプログラムできるプログラミングなどの形式言語で表されるタスクに焦点をあてる。
以上の結果から,2つの形式言語タスクに対する純粋なRLベースのトレーニングは困難であり,単純な算術タスクにおいても成功は限られていることがわかった。
論文 参考訳(メタデータ) (2024-10-22T15:59:58Z) - A Large Language Model-Driven Reward Design Framework via Dynamic Feedback for Reinforcement Learning [25.82540393199001]
CARDは報酬関数コードを反復的に生成し改善するリワードデザインフレームワークである。
CARDにはコードの生成と検証を行うCoderが含まれており、Evaluatorはコードを改善するためにCoderをガイドする動的なフィードバックを提供する。
論文 参考訳(メタデータ) (2024-10-18T17:51:51Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs [12.572869123617783]
強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-28T04:21:24Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Learning Reward for Robot Skills Using Large Language Models via Self-Alignment [11.639973274337274]
大規模言語モデル(LLM)には、報酬関数の学習を支援する可能性のある、貴重なタスク関連の知識が含まれている。
人間のいない場合に報酬をより効率的に学習する方法を提案する。
論文 参考訳(メタデータ) (2024-05-12T04:57:43Z) - Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。
私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。
経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文 参考訳(メタデータ) (2024-02-01T17:10:35Z) - Improving Large Language Models via Fine-grained Reinforcement Learning with Minimum Editing Constraint [104.53687944498155]
強化学習(RL)は、大規模言語モデル(LLM)の訓練に広く用いられている。
本稿では,報酬モデルとして生成モデルを組み込んだRL法 RLMEC を提案する。
生成報酬モデルに基づいて、トレーニングのためのトークンレベルRL目標と、RLプロセスの安定化のための模倣ベース正規化を設計する。
論文 参考訳(メタデータ) (2024-01-11T17:58:41Z) - Language Reward Modulation for Pretraining Reinforcement Learning [61.76572261146311]
本稿では,強化学習のための事前学習信号としてLRFの機能を活用することを提案する。
我々の VLM プレトレーニングアプローチは,従来の LRF の使い方とは違い,ロボット操作タスクにおけるサンプル効率の学習を温めることができる。
論文 参考訳(メタデータ) (2023-08-23T17:37:51Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。