論文の概要: Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2405.14314v1
- Date: Thu, 23 May 2024 08:33:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:04:42.713287
- Title: Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration
- Title(参考訳): マルチエージェント協調のための効率的なLLM接地に向けて
- Authors: Yang Zhang, Shixin Yang, Chenjia Bai, Fei Wu, Xiu Li, Xuelong Li, Zhen Wang,
- Abstract要約: 本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
- 参考スコア(独自算出の注目度): 70.09561665520044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Grounding the reasoning ability of large language models (LLMs) for embodied tasks is challenging due to the complexity of the physical world. Especially, LLM planning for multi-agent collaboration requires communication of agents or credit assignment as the feedback to re-adjust the proposed plans and achieve effective coordination. However, existing methods that overly rely on physical verification or self-reflection suffer from excessive and inefficient querying of LLMs. In this paper, we propose a novel framework for multi-agent collaboration that introduces Reinforced Advantage feedback (ReAd) for efficient self-refinement of plans. Specifically, we perform critic regression to learn a sequential advantage function from LLM-planned data, and then treat the LLM planner as an optimizer to generate actions that maximize the advantage function. It endows the LLM with the foresight to discern whether the action contributes to accomplishing the final task. We provide theoretical analysis by extending advantage-weighted regression in reinforcement learning to multi-agent systems. Experiments on Overcooked-AI and a difficult variant of RoCoBench show that ReAd surpasses baselines in success rate, and also significantly decreases the interaction steps of agents and query rounds of LLMs, demonstrating its high efficiency for grounding LLMs. More results are given at \url{https://read-llm.github.io/}.
- Abstract(参考訳): 物理世界の複雑さのため,大規模言語モデル(LLM)の具体的タスクに対する推論能力の確立は困難である。
特に,マルチエージェント協調のためのLLM計画では,提案した計画を再調整し,効果的な調整を行うためのフィードバックとして,エージェントやクレジットの割り当てのコミュニケーションが必要である。
しかし、物理検証や自己回帰に過度に依存する既存の手法は、LLMの過剰で非効率なクエリに悩まされている。
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な計画の自己調整のための強化アドバンテージフィードバック(ReAd)を導入している。
具体的には, LLM計画データから逐次優位関数を学習し, LLMプランナをオプティマイザとして扱い, 優位関数を最大化する動作を生成する。
行動が最終作業の達成に寄与するかどうかを判断するために、LLMに監督を付与する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Overcooked-AIと難解なRoCoBenchの実験により、ReAdは成功率のベースラインを超越し、LLMのエージェントとクエリラウンドの相互作用を著しく減少させ、LLMを接地する高効率性を実証した。
さらなる結果は \url{https://read-llm.github.io/} で与えられる。
関連論文リスト
- Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - Efficient Reinforcement Learning via Large Language Model-based Search [27.307583105810895]
大規模言語モデル(LLM)は、自然言語処理の規模で急速に普及している。
MEDIC はモデルベースのfeEDback critIC で LLM を拡張して,抽象的な問題に対して,潜在的に最適だが有効な計画を生成するフレームワークである。
実験の結果, 1) LLM を MEDIC で増強する効果,2) LLM 生成計画によって誘導された PPO および A2C をベースとした RL エージェントの試料複雑さの顕著な改善,3) これらのモデルの使用方法のさらなる検討の方向性が示された。
論文 参考訳(メタデータ) (2024-05-24T03:53:57Z) - Enabling Weak LLMs to Judge Response Reliability via Meta Ranking [38.63721941742435]
我々は、$textitMeta Ranking$ (MR) と呼ばれるクロスクエリベースの新しい手法を提案する。
MRは、ターゲットクエリ-レスポンスペアを複数の参照クエリ-レスポンスペアにペアでランク付けすることで、信頼性を評価する。
MRはモデルカスケーディングとインストラクションチューニングの2つの実用的応用において、強力なLLMの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-02-19T13:57:55Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。