論文の概要: BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
- arxiv url: http://arxiv.org/abs/2308.05960v1
- Date: Fri, 11 Aug 2023 06:37:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 15:07:25.921422
- Title: BOLAA: Benchmarking and Orchestrating LLM-augmented Autonomous Agents
- Title(参考訳): BOLAA: LLM強化自律エージェントのベンチマークとオーケストレーション
- Authors: Zhiwei Liu, Weiran Yao, Jianguo Zhang, Le Xue, Shelby Heinecke,
Rithesh Murthy, Yihao Feng, Zeyuan Chen, Juan Carlos Niebles, Devansh Arpit,
Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese
- Abstract要約: 大規模言語モデル(LLM)は、自律エージェント(LAA)の新たな探索に繋がった。
本稿では,エージェントアーキテクチャとLLMバックボーンの両方の観点から,LAAの包括的な比較を行う。
我々は、複数のLAAを編成する新しい戦略を提案し、各LAAは、複数のエージェント間の通信を管理する制御器であるテキストティティ(textiti.e. BOLAA)に焦点をあてる。
- 参考スコア(独自算出の注目度): 103.28404907655542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The massive successes of large language models (LLMs) encourage the emerging
exploration of LLM-augmented Autonomous Agents (LAAs). An LAA is able to
generate actions with its core LLM and interact with environments, which
facilitates the ability to resolve complex tasks by conditioning on past
interactions such as observations and actions. Since the investigation of LAA
is still very recent, limited explorations are available. Therefore, we provide
a comprehensive comparison of LAA in terms of both agent architectures and LLM
backbones. Additionally, we propose a new strategy to orchestrate multiple LAAs
such that each labor LAA focuses on one type of action, \textit{i.e.} BOLAA,
where a controller manages the communication among multiple agents. We conduct
simulations on both decision-making and multi-step reasoning environments,
which comprehensively justify the capacity of LAAs. Our performance results
provide quantitative suggestions for designing LAA architectures and the
optimal choice of LLMs, as well as the compatibility of both. We release our
implementation code of LAAs to the public at
\url{https://github.com/salesforce/BOLAA}.
- Abstract(参考訳): 大規模言語モデル(LLM)の大規模な成功は、LLM強化自律エージェント(LAA)の新たな探索を促進する。
LAAは中核のLCMでアクションを生成し、環境と相互作用するので、観測やアクションのような過去のインタラクションを条件付けすることで複雑なタスクを解決することができる。
LAAの調査はまだごく最近のものであり、限られた探査が可能である。
したがって、エージェントアーキテクチャとLLMバックボーンの両方の観点から、LAAを総合的に比較する。
さらに,複数のエージェント間の通信をコントローラが管理する1種類のアクションである \textit{i.e.} bolaa に焦点を当てるように,複数のlaasを編成する新しい戦略を提案する。
意思決定環境と多段階推論環境の両方でシミュレーションを行い、LAAの能力を包括的に正当化する。
この結果から,LAA アーキテクチャの設計や LLM の最適選択,および両者の互換性に関する定量的な提案が得られた。
当社は,LAAの実装コードを \url{https://github.com/salesforce/BOLAA} で公開しています。
関連論文リスト
- DynaSaur: Large Language Agents Beyond Predefined Actions [108.75187263724838]
既存のLLMエージェントシステムは、通常、各ステップで固定セットと事前定義されたセットからアクションを選択する。
動作の動的生成と構成をオンラインで実現するLLMエージェントフレームワークを提案する。
GAIAベンチマーク実験により, このフレームワークは柔軟性が向上し, 従来の手法よりも優れていたことが確認された。
論文 参考訳(メタデータ) (2024-11-04T02:08:59Z) - WALL-E: World Alignment by Rule Learning Improves World Model-based LLM Agents [55.64361927346957]
大規模言語モデル(LLM)による規則の勾配なし学習のためのニューロシンボリックアプローチを提案する。
我々のLLMエージェントWALL-Eはモデル予測制御(MPC)上に構築されている
MinecraftとALFWorldにおけるオープンワールドの課題について、WALL-Eは既存の方法よりも高い成功率を達成する。
論文 参考訳(メタデータ) (2024-10-09T23:37:36Z) - Mixture-of-Agents Enhances Large Language Model Capabilities [34.68610100315386]
我々は,Mixture-of-Agents(MoA)手法を用いて,多言語モデル(LLM)の総合的知識を活用する新しい手法を提案する。
提案手法では, 各層が複数のLLMエージェントから構成される層状MoAアーキテクチャを構築する。
MoAモデルは、AlpacaEval 2.0、MT-Bench、FLASKで、GPT-4 Omniを上回っている。
論文 参考訳(メタデータ) (2024-06-07T07:04:10Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - LLM-based Multi-Agent Reinforcement Learning: Current and Future Directions [8.55917897789612]
我々は、共通の目標を持つ複数のエージェントの協調作業と、それら間のコミュニケーションに焦点を当てる。
また、フレームワークの言語コンポーネントによって実現されるヒューマン・イン・オン・ザ・ループのシナリオについても検討する。
論文 参考訳(メタデータ) (2024-05-17T22:10:23Z) - LLMArena: Assessing Capabilities of Large Language Models in Dynamic
Multi-Agent Environments [35.926581910260076]
マルチエージェント動的環境における大規模言語モデルの能力を評価するためのフレームワークであるLLMArenaを紹介する。
LLArenaはTrueskillスコアを使用して、空間推論、戦略的計画、数値推論、リスク評価、コミュニケーション、相手モデリング、チームコラボレーションなど、LLMエージェントの重要な能力を評価する。
我々は、LLMの規模や種類によって、広範囲にわたる実験と人的評価を行い、LLMは、完全に自律的なエージェントへと発展する上で、依然として重要な道のりを歩んでいることを示す。
論文 参考訳(メタデータ) (2024-02-26T11:31:48Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach [31.6589518077397]
大規模言語モデル(LLM)は、大量のテキストデータセットから得られた膨大な量の世界の知識を符号化する。
LLMは、高レベルな命令を提供することで、複雑なシーケンシャルな意思決定タスクを解決するための実施エージェントを支援することができる。
本研究では,高レベルの命令に対してLLMを問合せする必要がある場合に学習する強化学習ベースのアプローチである When2Ask を提案する。
論文 参考訳(メタデータ) (2023-06-06T11:49:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。