論文の概要: Large Language Model is a Good Policy Teacher for Training Reinforcement
Learning Agents
- arxiv url: http://arxiv.org/abs/2311.13373v2
- Date: Mon, 27 Nov 2023 09:24:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 10:00:29.415247
- Title: Large Language Model is a Good Policy Teacher for Training Reinforcement
Learning Agents
- Title(参考訳): 大言語モデルは強化学習エージェントの訓練に優れた政策教師である
- Authors: Zihao Zhou, Bin Hu, Pu Zhang, Chenyang Zhao, Bin Liu
- Abstract要約: 大規模言語モデル(LLM)は、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクの解決に利用できる。
LLMは、特定の目標問題の解法に専門性が欠如していることから、リアルタイムな動的環境において制限に直面している。
LLMをベースとした教師エージェントからの指示を用いて、小規模の特化学生エージェントを訓練することで、これらの課題に対処する新しい枠組みを導入する。
- 参考スコア(独自算出の注目度): 17.430124346342826
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent studies have shown that Large Language Models (LLMs) can be utilized
for solving complex sequential decision-making tasks by providing high-level
instructions. However, LLM-based agents face limitations in real-time dynamic
environments due to their lack of specialization in solving specific target
problems. Moreover, the deployment of such LLM-based agents is both costly and
time-consuming in practical scenarios. In this paper, we introduce a novel
framework that addresses these challenges by training a smaller scale
specialized student agent using instructions from an LLM-based teacher agent.
By leveraging guided actions provided by the teachers, the prior knowledge of
the LLM is distilled into the local student model. Consequently, the student
agent can be trained with significantly less data. Furthermore, subsequent
training with environment feedback empowers the student agents to surpass the
capabilities of their teachers. We conducted experiments on three challenging
MiniGrid environments to evaluate the effectiveness of our framework. The
results demonstrate that our approach enhances sample efficiency and achieves
superior performance compared to baseline methods.
- Abstract(参考訳): 近年,Large Language Models (LLMs) は高レベルな指示を提供することで,複雑な逐次決定課題の解決に有効であることが示された。
しかし, LLMをベースとしたエージェントは, 特定の目標問題の解法における特殊化の欠如により, リアルタイムな動的環境の制約に直面している。
さらに、このようなLCMベースのエージェントの配備は、実用シナリオにおいてコストと時間の両方を消費する。
本稿では,LLMをベースとした教師エージェントからの指示を用いて,小規模の専門学生エージェントを訓練することで,これらの課題に対処する新しい枠組みを提案する。
教師が提供した指導的行動を活用することで、LLMの事前知識を地元の学生モデルに蒸留する。
これにより、学生エージェントを著しく少ないデータで訓練することができる。
さらに、その後の環境フィードバックによるトレーニングにより、学生エージェントは教師の能力を超えることができる。
提案手法の有効性を評価するため,3つの挑戦的ミニグリッド環境について実験を行った。
その結果,本手法はサンプル効率を高め,ベースライン法よりも優れた性能を得ることができた。
関連論文リスト
- A Little Help Goes a Long Way: Efficient LLM Training by Leveraging Small LMs [74.35290684163718]
大規模言語モデル(LLM)開発における最大の課題は、その面倒な事前トレーニングコストである。
本稿では,小言語モデル(SLM)を活用して,LLMの事前学習効率と品質を改善するための有望なパラダイムについて検討する。
論文 参考訳(メタデータ) (2024-10-24T14:31:52Z) - SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。
本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文 参考訳(メタデータ) (2024-10-16T11:59:27Z) - Words as Beacons: Guiding RL Agents with High-Level Language Prompts [6.7236795813629]
大型言語モデル(LLM)は「教師」として、複雑なタスクをサブゴールに分解することでエージェントの学習プロセスを導く。
LLMは、人間と同じような方法で、環境のために定義されたタスクを達成するためのサブゴールを提供することができる。
トレーニングフェーズの間のみLLMに問い合わせることができ、エージェントはLLMの介入なしに環境内で操作できる。
論文 参考訳(メタデータ) (2024-10-11T08:54:45Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - Enhancing the General Agent Capabilities of Low-Parameter LLMs through Tuning and Multi-Branch Reasoning [56.82041895921434]
オープンソースの事前訓練された大規模言語モデル(LLM)は、強力な言語理解と生成能力を示す。
現実世界の複雑な問題に対処するエージェントとして使用される場合、ChatGPTやGPT-4のような大型の商用モデルに比べてパフォーマンスははるかに劣る。
論文 参考訳(メタデータ) (2024-03-29T03:48:12Z) - EnvGen: Generating and Adapting Environments via LLMs for Training Embodied Agents [65.38474102119181]
トレーニング環境を適応的に作成するフレームワークであるEnvGenを提案する。
我々は、LLM生成環境とLLM生成環境を混合した小さなRLエージェントを訓練する。
我々は、EnvGenで訓練された小さなRLエージェントが、GPT-4エージェントを含むSOTAメソッドより優れており、長い水平タスクをかなり高速に学習できることを発見した。
論文 参考訳(メタデータ) (2024-03-18T17:51:16Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。