論文の概要: Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs
- arxiv url: http://arxiv.org/abs/2406.19644v1
- Date: Fri, 28 Jun 2024 04:21:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 17:50:12.913000
- Title: Beyond Human Preferences: Exploring Reinforcement Learning Trajectory Evaluation and Improvement through LLMs
- Title(参考訳): 人間の嗜好を超えて:LLMによる強化学習の軌道評価と改善を探る
- Authors: Zichao Shen, Tianchen Zhu, Qingyun Sun, Shiqi Gao, Jianxin Li,
- Abstract要約: 強化学習(Reinforcement Learning, RL)は、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題である。
PbRLは、人間の嗜好を重要な報酬信号として活用する先駆的なフレームワークである。
LLM4PG という LLM 対応自動選好生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.572869123617783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) faces challenges in evaluating policy trajectories within intricate game tasks due to the difficulty in designing comprehensive and precise reward functions. This inherent difficulty curtails the broader application of RL within game environments characterized by diverse constraints. Preference-based reinforcement learning (PbRL) presents a pioneering framework that capitalizes on human preferences as pivotal reward signals, thereby circumventing the need for meticulous reward engineering. However, obtaining preference data from human experts is costly and inefficient, especially under conditions marked by complex constraints. To tackle this challenge, we propose a LLM-enabled automatic preference generation framework named LLM4PG , which harnesses the capabilities of large language models (LLMs) to abstract trajectories, rank preferences, and reconstruct reward functions to optimize conditioned policies. Experiments on tasks with complex language constraints demonstrated the effectiveness of our LLM-enabled reward functions, accelerating RL convergence and overcoming stagnation caused by slow or absent progress under original reward structures. This approach mitigates the reliance on specialized human knowledge and demonstrates the potential of LLMs to enhance RL's effectiveness in complex environments in the wild.
- Abstract(参考訳): 強化学習(RL)は、包括的かつ正確な報酬関数を設計することの難しさから、複雑なゲームタスクにおけるポリシートラジェクトリを評価する上での課題に直面している。
この固有の困難さは、様々な制約によって特徴づけられるゲーム環境におけるRLの広範な適用を困難にしている。
嗜好に基づく強化学習(PbRL)は、人間の嗜好を重要な報酬信号として活用する先駆的な枠組みを示し、巧妙な報酬工学の必要性を回避する。
しかし、人間の専門家から選好データを得るのは費用がかかり非効率であり、特に複雑な制約によって特徴づけられる条件下では。
この課題に対処するため, LLM4PG と呼ばれる LLM 対応自動選好生成フレームワークを提案する。
複雑な言語制約を伴うタスクの実験では、LLM対応報酬関数の有効性、RL収束の促進、元の報酬構造下での遅滞や欠落による停滞の克服が示された。
このアプローチは、人間の専門知識への依存を緩和し、野生の複雑な環境におけるLLの有効性を高めるLLMの可能性を実証する。
関連論文リスト
- Efficient Reinforcement Learning via Large Language Model-based Search [27.307583105810895]
大規模言語モデル(LLM)は、自然言語処理の規模で急速に普及している。
MEDIC はモデルベースのfeEDback critIC で LLM を拡張して,抽象的な問題に対して,潜在的に最適だが有効な計画を生成するフレームワークである。
実験の結果, 1) LLM を MEDIC で増強する効果,2) LLM 生成計画によって誘導された PPO および A2C をベースとした RL エージェントの試料複雑さの顕著な改善,3) これらのモデルの使用方法のさらなる検討の方向性が示された。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Reinforcement Learning from Reflective Feedback (RLRF): Aligning and Improving LLMs via Fine-Grained Self-Reflection [24.435121488662897]
反射フィードバックによる強化学習(RLRF)という新しい枠組みを提案する。
RLRFは自己回帰機構を用いて、LLM応答を体系的に探索し、洗練し、RLアルゴリズムを介してモデルを微調整し、有望な応答を与える。
ジャスト・エバル, ファクタリティ, 数学的推論による実験は, RLRFの有効性と変換ポテンシャルを実証した。
論文 参考訳(メタデータ) (2024-03-21T08:57:27Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback [37.22370177877156]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。
複雑な意思決定タスクにおけるそれらの応用は、しばしば複雑な迅速なエンジニアリングや微調整を必要とする。
本稿では,LLMとRLフィードバックの相乗効果を高めるために設計された新しいフレームワークであるAdaRefinerを紹介する。
我々の研究は、RLフィードバックによるLLMの自動自己修正に貢献し、複雑な意思決定問題に対してより適応的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-29T12:16:19Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward
Model [126.78737228677025]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。