論文の概要: Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach
- arxiv url: http://arxiv.org/abs/2306.03604v5
- Date: Sun, 3 Mar 2024 04:59:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 03:31:12.013635
- Title: Enabling Intelligent Interactions between an Agent and an LLM: A
Reinforcement Learning Approach
- Title(参考訳): エージェントとllmのインテリジェントなインタラクションの実現:強化学習アプローチ
- Authors: Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin
Xu, Bin Liu
- Abstract要約: 大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
- 参考スコア(独自算出の注目度): 33.24651276102073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) encode a vast amount of world knowledge acquired
from massive text datasets. Recent studies have demonstrated that LLMs can
assist an embodied agent in solving complex sequential decision making tasks by
providing high-level instructions. However, interactions with LLMs can be
time-consuming. In many practical scenarios, they require a significant amount
of storage space that can only be deployed on remote cloud server nodes.
Additionally, using commercial LLMs can be costly since they may charge based
on usage frequency. In this paper, we explore how to enable intelligent
cost-effective interactions between the agent and an LLM. We find that this
problem can be naturally formulated by a Markov decision process (MDP), and
propose When2Ask, a reinforcement learning based approach that learns when it
is necessary to query LLMs for high-level instructions to accomplish a target
task. Experiments on MiniGrid and Habitat environments that entail planning
sub-goals demonstrate that When2Ask learns to solve target tasks with only a
few necessary interactions with an LLM, and significantly reduces interaction
costs in testing environments compared with baseline methods. Experiment
results also suggest that by learning a mediator model to interact with the
LLM, the agent's performance becomes more robust against partial observability
of the environment. Our code is available at
https://github.com/ZJLAB-AMMI/LLM4RL.
- Abstract(参考訳): 大規模言語モデル(llms)は、膨大なテキストデータセットから得られる膨大な量の知識を符号化する。
近年の研究では、LLMは高レベルの指示を提供することで複雑なシーケンシャルな意思決定タスクを解決するために、エンボディエージェントを補助できることが示されている。
しかし、LLMとの相互作用には時間がかかる。
多くの実用的なシナリオでは、リモートのクラウドサーバノードにのみデプロイ可能な、かなりの量のストレージスペースが必要です。
加えて、商用のLCMは使用頻度に応じて課金できるため、コストがかかる。
本稿では,エージェントとLLMのインテリジェントなコスト効率な相互作用を実現する方法について検討する。
我々は,この問題をマルコフ決定プロセス(MDP)によって自然に定式化することができ,目標タスクを達成するためにLLMに問い合わせる必要があるときに学習する強化学習ベースのアプローチであるWhen2Askを提案する。
計画サブゴールを含むMiniGrid環境とHabitat環境の実験では、When2AskはLLMとほんの少しだけ必要なインタラクションでターゲットタスクを解くことを学習し、ベースライン手法と比較してテスト環境におけるインタラクションコストを大幅に削減する。
また, LLMと相互作用するメディエータモデルを学習することにより, エージェントの性能が環境の部分的可観測性に対してより堅牢になることが示唆された。
私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4RLで利用可能です。
関連論文リスト
- Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When
and What to Retrieve for LLMs [64.0049955128318]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Small LLMs Are Weak Tool Learners: A Multi-LLM Agent [73.54562551341454]
大規模言語モデル(LLM)エージェントはスタンドアロンのLLMの機能を大幅に拡張する。
本稿では、上記の機能をプランナー、呼び出し元、要約器に分解する新しい手法を提案する。
このモジュール化されたフレームワークは、個々の更新と、それぞれの機能を構築するための小さなLLMの潜在的な使用を容易にする。
論文 参考訳(メタデータ) (2024-01-14T16:17:07Z) - Mutual Enhancement of Large and Small Language Models with Cross-Silo
Knowledge Transfer [27.63746419563747]
大規模言語モデル (LLM) には幅広い知識が与えられているが、そのタスク固有の性能は、しばしば準最適である。
タスク固有のデータで微調整 LLM を必要とするが、プライバシー上の懸念からアクセスできない可能性がある。
本研究では,より小さな言語モデル (SLM) でLLMを強化し,クライアント上でプライベートなタスク固有データを用いて学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-10T09:52:32Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - LLM Augmented Hierarchical Agents [4.574041097539858]
強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり、事前知識(あるいは表層ラサ学習)を伴わない学習の一般的な実践によって複雑化される。
本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。
このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。
論文 参考訳(メタデータ) (2023-11-09T18:54:28Z) - Dynamic Planning with a LLM [15.430182858130884]
大言語モデル(LLM)はゼロショット設定で多くのNLPタスクを解くことができるが、具体化エージェントを含むアプリケーションは依然として問題である。
LLM動的プランナー(LLM-DP)は,LLMが従来のプランナーと手動で作業し,具体的課題を解決する,神経象徴的な枠組みである。
論文 参考訳(メタデータ) (2023-08-11T21:17:13Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。