論文の概要: Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2306.03604v4
- Date: Thu, 31 Aug 2023 12:44:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 19:58:20.574234
- Title: Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach
- Title(参考訳): エージェントとllmのインテリジェントなインタラクションの実現:強化学習アプローチ
- Authors: Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin
Xu, Bin Liu
- Abstract要約: 大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
- 参考スコア(独自算出の注目度): 33.24651276102073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) encode a vast amount of world knowledge acquired
from massive text datasets. Recent studies have demonstrated that LLMs can
assist an embodied agent in solving complex sequential decision making tasks by
providing high-level instructions. However, interactions with LLMs can be
time-consuming. In many practical scenarios, they require a significant amount
of storage space that can only be deployed on remote cloud server nodes.
Additionally, using commercial LLMs can be costly since they may charge based
on usage frequency. In this paper, we explore how to enable intelligent
cost-effective interactions between the agent and an LLM. We propose When2Ask,
a reinforcement learning based approach that learns when it is necessary to
query LLMs for high-level instructions to accomplish a target task. Experiments
on MiniGrid and Habitat environments that entail planning sub-goals demonstrate
that When2Ask learns to solve target tasks with only a few necessary
interactions with an LLM, and significantly reduces interaction costs in
testing environments compared with baseline methods. Experiment results also
suggest that by learning a mediator model to interact with the LLM, the agent's
performance becomes more robust against partial observability of the
environment. Our code is available at https://github.com/ZJLAB-AMMI/LLM4RL.
- Abstract(参考訳): 大規模言語モデル(llms)は、膨大なテキストデータセットから得られる膨大な量の知識を符号化する。
近年の研究では、LLMは高レベルの指示を提供することで複雑なシーケンシャルな意思決定タスクを解決するために、エンボディエージェントを補助できることが示されている。
しかし、LLMとの相互作用には時間がかかる。
多くの実用的なシナリオでは、リモートのクラウドサーバノードにのみデプロイ可能な、かなりの量のストレージスペースが必要です。
加えて、商用のLCMは使用頻度に応じて課金できるため、コストがかかる。
本稿では,エージェントとLLMのインテリジェントなコスト効率な相互作用を実現する方法について検討する。
本研究では,高レベルの命令をLLMに問い合わせて目的のタスクを遂行するために必要な,強化学習に基づくアプローチである When2Ask を提案する。
計画サブゴールを含むMiniGrid環境とHabitat環境の実験では、When2AskはLLMとほんの少しだけ必要なインタラクションでターゲットタスクを解くことを学習し、ベースライン手法と比較してテスト環境におけるインタラクションコストを大幅に削減する。
また, LLMと相互作用するメディエータモデルを学習することにより, エージェントの性能が環境の部分的可観測性に対してより堅牢になることが示唆された。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4RLで利用可能です。
関連論文リスト
- AGILE: A Novel Reinforcement Learning Framework of LLM Agents [7.982249117182315]
本稿では,ユーザとの複雑な対話処理を実現するために,LLMエージェントの強化学習フレームワークを提案する。
エージェントは、リフレクション、ツールの使用、専門家の相談など、会話以外の能力を持っている。
実験の結果, PPOで訓練した7Bおよび13B LLMをベースとしたAGILEは, GPT-4エージェントより優れていた。
論文 参考訳(メタデータ) (2024-05-23T16:17:44Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - Sub-goal Distillation: A Method to Improve Small Language Agents [21.815417165548187]
大規模言語モデル(LLM)は対話型タスクにおけるエージェントとして大きな可能性を証明している。
数十億のパラメータを持つLLMの性能を、はるかに小さな言語モデルに転送する手法を提案する。
困難かつマルチタスクな対話型テキスト環境であるScienceWorldでは,基本動作のみに基づく標準的な模倣学習を16.7%超えている。
論文 参考訳(メタデータ) (2024-05-04T20:34:06Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。
本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。
このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文 参考訳(メタデータ) (2023-11-09T18:54:28Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。