論文の概要: Large Language Model as a Policy Teacher for Training Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2311.13373v4
- Date: Mon, 22 Jan 2024 11:08:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 20:04:15.612488
- Title: Large Language Model as a Policy Teacher for Training Reinforcement
Learning Agents
- Title(参考訳): 強化学習エージェントの政策教師としての大規模言語モデル
- Authors: Zihao Zhou, Bin Hu, Chenyang Zhao, Pu Zhang, Bin Liu
- Abstract要約: LLM(Large Language Models)は、高レベルの命令を提供することによって、シーケンシャルな意思決定タスクに対処することができる。
LLMは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
LLMベースの教師エージェントからの指示を用いて、より小規模で専門的なRLエージェントを訓練することで、これらの課題に対処する新しいフレームワークを導入する。
- 参考スコア(独自算出の注目度): 17.430124346342826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies have uncovered the potential of Large Language Models (LLMs)
in addressing complex sequential decision-making tasks through the provision of
high-level instructions. However, LLM-based agents lack specialization in
tackling specific target problems, particularly in real-time dynamic
environments. Additionally, deploying an LLM-based agent in practical scenarios
can be both costly and time-consuming. On the other hand, reinforcement
learning (RL) approaches train agents that specialize in the target task but
often suffer from low sampling efficiency and high exploration costs. In this
paper, we introduce a novel framework that addresses these challenges by
training a smaller, specialized student RL agent using instructions from an
LLM-based teacher agent. By incorporating the guidance from the teacher agent,
the student agent can distill the prior knowledge of the LLM into its own
model. Consequently, the student agent can be trained with significantly less
data. Moreover, through further training with environment feedback, the student
agent surpasses the capabilities of its teacher for completing the target task.
We conducted experiments on challenging MiniGrid and Habitat environments,
specifically designed for embodied AI research, to evaluate the effectiveness
of our framework. The results clearly demonstrate that our approach achieves
superior performance compared to strong baseline methods. Our code is available
at https://github.com/ZJLAB-AMMI/LLM4Teach.
- Abstract(参考訳): 近年,大規模言語モデル (llm) が高レベル命令の提供を通じて複雑な逐次的意思決定タスクに取り組む可能性を見出した。
しかし、LSMをベースとしたエージェントは、特にリアルタイムな動的環境において、特定のターゲット問題に対処する専門性を欠いている。
加えて、LCMベースのエージェントを実践的なシナリオにデプロイすることは、コストと時間の両方を要します。
一方、強化学習(RL)は、目標タスクを専門とする訓練エージェントにアプローチするが、サンプリング効率が低く、探索コストも高い。
本稿では,LLMベースの教師エージェントからの指示を用いて,より小規模で専門的なRLエージェントを訓練することで,これらの課題に対処する新しいフレームワークを提案する。
教師エージェントからの指導を取り入れることで、学生エージェントはLLMの事前知識を独自のモデルに抽出することができる。
これにより、学生エージェントを著しく少ないデータで訓練することができる。
さらに、環境フィードバックによるさらなるトレーニングを通じて、学生エージェントは、目標タスクを完了するための教師の能力を上回る。
我々は,AI研究に特化して設計されたMiniGridとHabitat環境の挑戦実験を行い,フレームワークの有効性を評価した。
その結果,本手法は強いベースライン法に比べて優れた性能を示した。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4Teachで利用可能です。
関連論文リスト
- KnowAgent: Knowledge-Augmented Planning for LLM-Based Agents [54.09074527006576]
大規模言語モデル(LLM)は複雑な推論タスクにおいて大きな可能性を証明していますが、より高度な課題に取り組むには不十分です。
この不適切さは、主に言語エージェントのアクション知識が組み込まれていないことに起因する。
我々は、明示的な行動知識を取り入れることで、LLMの計画能力を高めるために設計された新しいアプローチであるKnowAgentを紹介する。
論文 参考訳(メタデータ) (2024-03-05T16:39:12Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and
Optimization [55.29142200038241]
Agent-Proはポリシーレベルのリフレクションと最適化を備えたLLMベースのエージェントである。
過去の軌道と信念を反復的に反映し、より良い政策のために不合理な信念を微調整する。
Agent-Proは、BlackjackとTexas Hold'emの2つのゲームで評価され、バニラLLMと特殊モデルを上回っている。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - Empowering Large Language Model Agents through Action Learning [89.07382951897941]
大規模言語モデル(LLM)エージェントは最近ますます関心を集めているが、試行錯誤から学ぶ能力は限られている。
我々は、経験から新しい行動を学ぶ能力は、LLMエージェントの学習の進歩に欠かせないものであると論じる。
我々はPython関数の形式でアクションを作成し改善するための反復学習戦略を備えたフレームワークLearningActを紹介した。
論文 参考訳(メタデータ) (2024-02-24T13:13:04Z) - Training Language Model Agents without Modifying Language Models [41.88553844239783]
LLM重みを変更することなくLLM(Large Language Models)エージェントを訓練する新しいパラダイムを提案する。
LLMを利用してエージェントの機能を更新し、ロールバックとアーリーストップという2つの戦略でエージェントトレーニングアルゴリズムを考案するエージェントを開発する。
広範囲な実験により、エージェント訓練パラダイムが代表的LLMエージェントの性能を大幅に改善できることが示される。
論文 参考訳(メタデータ) (2024-02-17T18:31:21Z) - Mutual Enhancement of Large Language and Reinforcement Learning Models
through Bi-Directional Feedback Mechanisms: A Case Study [1.3597551064547502]
我々は,大規模言語モデル(LLM)と強化学習(RL)モデルの課題に対処するために,教師による学習フレームワークを採用している。
この枠組みの中で、LLMは教師として、RLモデルは学生として機能する。
本手法の有効性を評価するために,この問題に対処し,実証実験を行うための実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-12T14:35:57Z) - Accelerating Reinforcement Learning of Robotic Manipulations via
Feedback from Large Language Models [21.052532074815765]
本稿では,Lafite-RL (Language Agent feedback Interactive Reinforcement Learning) フレームワークを紹介する。
RLエージェントは、Large Language Modelsのタイムリーフィードバックを利用して、ロボットタスクを効率的に学習することができる。
学習効率と成功率の両方でベースラインを上回ります。
論文 参考訳(メタデータ) (2023-11-04T11:21:38Z) - LgTS: Dynamic Task Sampling using LLM-generated sub-goals for
Reinforcement Learning Agents [10.936460061405157]
LgTS (LLM-Guided Teacher-Student Learning) を提案する。
提案手法では,提案したサブゴールを達成するための事前訓練されたポリシーも必要としない。
論文 参考訳(メタデータ) (2023-10-14T00:07:03Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach [33.24651276102073]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z) - Knowledge Inheritance for Pre-trained Language Models [57.51305807391381]
我々は「知識継承(KI)」という新しい事前学習フレームワークを導入する。
KIは、自己学習と教師指導の両方を組み合わせて、より大きなPLMを効率的に訓練する。
KIは生涯学習と知識伝達を十分に支援できることを示す。
論文 参考訳(メタデータ) (2021-05-28T14:43:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。