論文の概要: Large Language Model is a Good Policy Teacher for Training Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2311.13373v3
- Date: Wed, 29 Nov 2023 08:39:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 12:32:03.861422
- Title: Large Language Model is a Good Policy Teacher for Training Reinforcement
Learning Agents
- Title(参考訳): 大言語モデルは強化学習エージェントの訓練に優れた政策教師である
- Authors: Zihao Zhou, Bin Hu, Pu Zhang, Chenyang Zhao, Bin Liu
- Abstract要約: 大規模言語モデル(LLM)は、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクの解決に利用できる。
しかし, LLMをベースとしたエージェントは, 特定の目標問題の解法における特殊化の欠如により, リアルタイムな動的環境の制約に直面している。
LLMをベースとした教師エージェントからの指示を用いて、小規模の特化学生エージェントを訓練することで、これらの課題に対処する新しい枠組みを導入する。
- 参考スコア(独自算出の注目度): 17.430124346342826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies have shown that Large Language Models (LLMs) can be utilized
for solving complex sequential decision-making tasks by providing high-level
instructions. However, LLM-based agents face limitations in real-time dynamic
environments due to their lack of specialization in solving specific target
problems. Moreover, the deployment of such LLM-based agents is both costly and
time-consuming in practical scenarios. In this paper, we introduce a novel
framework that addresses these challenges by training a smaller scale
specialized student agent using instructions from an LLM-based teacher agent.
By leveraging guided actions provided by the teachers, the prior knowledge of
the LLM is distilled into the local student model. Consequently, the student
agent can be trained with significantly less data. Furthermore, subsequent
training with environment feedback empowers the student agents to surpass the
capabilities of their teachers. We conducted experiments on three challenging
MiniGrid environments to evaluate the effectiveness of our framework. The
results demonstrate that our approach enhances sample efficiency and achieves
superior performance compared to baseline methods. Our code is available at
https://github.com/ZJLAB-AMMI/LLM4Teach.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は高レベルな指示を提供することで,複雑な逐次決定課題の解決に有効であることが示された。
しかし, LLMをベースとしたエージェントは, 特定の目標問題の解法における特殊化の欠如により, リアルタイムな動的環境の制約に直面している。
さらに、このようなLCMベースのエージェントの配備は、実用シナリオにおいてコストと時間の両方を消費する。
本稿では,LLMをベースとした教師エージェントからの指示を用いて,小規模の専門学生エージェントを訓練することで,これらの課題に対処する新しい枠組みを提案する。
教師が提供した指導的行動を活用することで、LLMの事前知識を地元の学生モデルに蒸留する。
これにより、学生エージェントを著しく少ないデータで訓練することができる。
さらに、その後の環境フィードバックによるトレーニングにより、学生エージェントは教師の能力を超えることができる。
提案手法の有効性を評価するため,3つの挑戦的ミニグリッド環境について実験を行った。
その結果,本手法はサンプル効率を高め,ベースライン法よりも優れた性能を得ることができた。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4Teachで利用可能です。
関連論文リスト
- Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
本稿では,より小型のRLエージェントが,弱体化している有用なスキルを学習するのを支援するために,EnvGenを提案する。
EnvGenで訓練された小さなRLエージェントは、GPT-4エージェントを含むSOTAメソッドよりも優れており、長い水平タスクをかなり高速に学習することができる。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Empowering Large Language Model Agents through Action Learning [89.07382951897941]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。