論文の概要: Harnessing Language for Coordination: A Framework and Benchmark for LLM-Driven Multi-Agent Control
- arxiv url: http://arxiv.org/abs/2412.11761v2
- Date: Tue, 22 Apr 2025 11:24:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-23 19:51:40.175105
- Title: Harnessing Language for Coordination: A Framework and Benchmark for LLM-Driven Multi-Agent Control
- Title(参考訳): Harnessing Language for Coordination: LLM駆動マルチエージェント制御のためのフレームワークとベンチマーク
- Authors: Timothée Anne, Noah Syrkis, Meriem Elhosni, Florian Turati, Franck Legendre, Alain Jaquier, Sebastian Risi,
- Abstract要約: 大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
多くのエージェントと人間の協調を促進する能力は、有望だがほとんど探索されていない領域である。
本研究では,(1)これらの能力を評価するために設計されたリアルタイム戦略ゲームベンチマーク,(2)HIVEと呼ぶ新しいフレームワークを紹介する。
- 参考スコア(独自算出の注目度): 6.721923873906492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable performance across various tasks. Their potential to facilitate human coordination with many agents is a promising but largely under-explored area. Such capabilities would be helpful in disaster response, urban planning, and real-time strategy scenarios. In this work, we introduce (1) a real-time strategy game benchmark designed to evaluate these abilities and (2) a novel framework we term HIVE. HIVE empowers a single human to coordinate swarms of up to 2,000 agents through a natural language dialog with an LLM. We present promising results on this multi-agent benchmark, with our hybrid approach solving tasks such as coordinating agent movements, exploiting unit weaknesses, leveraging human annotations, and understanding terrain and strategic points. Our findings also highlight critical limitations of current models, including difficulties in processing spatial visual information and challenges in formulating long-term strategic plans. This work sheds light on the potential and limitations of LLMs in human-swarm coordination, paving the way for future research in this area. The HIVE project page, hive.syrkis.com, includes videos of the system in action.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なタスクで顕著なパフォーマンスを示している。
多くのエージェントと人間の協調を促進する能力は、有望だがほとんど探索されていない領域である。
このような能力は、災害対応、都市計画、リアルタイム戦略シナリオに役立ちます。
本研究では,(1)これらの能力を評価するために設計されたリアルタイム戦略ゲームベンチマーク,(2)HIVEと呼ぶ新しいフレームワークを紹介する。
HIVEは、LLMとの自然言語ダイアログを通じて、最大2,000人のエージェントの群れを調整する権限を、一人の人間に与えている。
エージェントの動きのコーディネート、ユニットの弱点の活用、人間のアノテーションの活用、地形や戦略点の理解といったタスクをハイブリッドで解くことで、このマルチエージェントベンチマークで有望な結果を提示する。
また,空間的視覚情報処理の難しさや長期戦略計画策定の難しさなど,現行モデルの限界も強調した。
この研究は、人間とスワムの協調におけるLLMの可能性と限界に光を当て、この分野における将来の研究の道を開く。
HIVEのプロジェクトページ「hive.syrkis.com」には、動作中のシステムのビデオが含まれている。
関連論文リスト
- MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - MALMM: Multi-Agent Large Language Models for Zero-Shot Robotics Manipulation [52.739500459903724]
大規模言語モデル(LLM)は、ロボティクスの操作やナビゲーションなど、さまざまな領域にまたがる優れた計画能力を示している。
特殊なLLMエージェント間で高レベル計画および低レベル制御コード生成を分散する新しいマルチエージェントLLMフレームワークを提案する。
長軸タスクを含む9つのRLBenchタスクに対するアプローチを評価し、ゼロショット環境でロボット操作を解く能力を実証した。
論文 参考訳(メタデータ) (2024-11-26T17:53:44Z) - BALROG: Benchmarking Agentic LLM and VLM Reasoning On Games [44.16513620589459]
本稿では,大規模言語モデル(LLM)と視覚言語モデル(VLM)のエージェント能力を評価する新しいベンチマークであるBALROGを紹介する。
私たちのベンチマークでは、熟練していない人間が数秒で解決できるタスクや、習得に何年もかかるような極めて困難なタスクなど、さまざまな難易度を持つ既存の強化学習環境を取り入れています。
より簡単なゲームでは,現行のモデルが部分的には成功しているが,より困難なタスクに苦しむことが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:54:32Z) - Cooperate or Collapse: Emergence of Sustainable Cooperation in a Society of LLM Agents [101.17919953243107]
GovSimは、大規模言語モデル(LLM)における戦略的相互作用と協調的意思決定を研究するために設計された生成シミュレーションプラットフォームである。
最強のLSMエージェントを除く全てのエージェントは、GovSimの持続的均衡を達成することができず、生存率は54%以下である。
道徳的思考の理論である「大学化」に基づく推論を活用するエージェントは、持続可能性を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2024-04-25T15:59:16Z) - Large Language Models for Orchestrating Bimanual Robots [19.60907949776435]
本稿では,Language-based Bimanual Orchestration (LABOR)を提案する。
NICOLヒューマノイドロボットを用いた2種類の長距離作業のシミュレーション実験により,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-02T15:08:35Z) - LLM-Powered Hierarchical Language Agent for Real-time Human-AI
Coordination [28.22553394518179]
人-AI協調のための階層型言語エージェント(HLA)を提案する。
HLAは、リアルタイム実行を維持しながら、強力な推論能力を提供する。
人間の研究では、HLAは他のベースラインエージェントより優れており、スローミンドのみのエージェントやファストミンドのみのエージェントがある。
論文 参考訳(メタデータ) (2023-12-23T11:09:48Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - MetaAgents: Simulating Interactions of Human Behaviors for LLM-based
Task-oriented Coordination via Collaborative Generative Agents [27.911816995891726]
我々は,一貫した行動パターンと課題解決能力を備えたLLMベースのエージェントを,協調的生成エージェントとして導入する。
本研究では,人間のような推論能力と専門的スキルを備えた協調生成エージェントを実現する新しい枠組みを提案する。
我々の研究は、タスク指向の社会シミュレーションにおける大規模言語モデルの役割と進化に関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-10-10T10:17:58Z) - LLM-Coordination: Evaluating and Analyzing Multi-agent Coordination Abilities in Large Language Models [23.092480882456048]
本研究では,Pure Coordination Games の文脈におけるLarge Language Models (LLM) の詳細な解析を目的とした。
以上の結果から, GPT-4-turbo を併用した LLM エージェントは, 最先端の強化学習法に匹敵する性能を示した。
コーディネーションQAの結果は、LLMのマインド推論と共同計画能力の向上のための大きな空間を示している。
論文 参考訳(メタデータ) (2023-10-05T21:18:15Z) - Cooperation, Competition, and Maliciousness: LLM-Stakeholders Interactive Negotiation [52.930183136111864]
我々は,大言語モデル(LLM)を評価するためにスコーラブルネゴシエーション(scorable negotiations)を提案する。
合意に達するには、エージェントは強力な算術、推論、探索、計画能力を持つ必要がある。
我々は、新しいゲームを作成し、進化するベンチマークを持つことの難しさを増大させる手順を提供する。
論文 参考訳(メタデータ) (2023-09-29T13:33:06Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。