論文の概要: Benchmarking LLMs' Swarm intelligence
- arxiv url: http://arxiv.org/abs/2505.04364v3
- Date: Wed, 28 May 2025 07:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 20:07:45.779672
- Title: Benchmarking LLMs' Swarm intelligence
- Title(参考訳): LLMのSwarmインテリジェンスのベンチマーク
- Authors: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
- 参考スコア(独自算出の注目度): 50.544186914115045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict swarm-like constraints-limited local perception and communication-remains largely unexplored. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks (Pursuit, Synchronization, Foraging, Flocking, Transport) within a configurable 2D grid environment, forcing agents to rely solely on local sensory input ($k\times k$ view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Zero-shot evaluations of leading LLMs (e.g., deepseek-v3, o4-mini) reveal significant task-dependent performance variations. While some rudimentary coordination is observed, our results indicate that current LLMs significantly struggle with robust long-range planning and adaptive strategy formation under the uncertainty inherent in these decentralized scenarios. Assessing LLMs under such swarm-like constraints is crucial for understanding their utility in future decentralized intelligent systems. We release SwarmBench as an open, extensible toolkit-built on a customizable physical system-providing environments, prompts, evaluation scripts, and comprehensive datasets. This aims to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of emergent collective behavior under severe informational decentralization. Our code repository is available at https://github.com/x66ccff/swarmbench.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、厳密なSwarmのような制約付き局所認識と通信残差の下でのマルチエージェントシステム(MAS)における創発的協調の能力は、ほとんど探索されていない。
既存のベンチマークは、エージェントが不完全な時空間情報で操作する場合に、分散コーディネートというユニークな課題を完全には捉えないことが多い。
このギャップを埋めるために、分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークSwarmBenchを紹介する。
SwarmBenchは、設定可能な2Dグリッド環境内に5つの基本的なMAS調整タスク(Pursuit、Synchronization、Foraging、Flocking、Transport)を備えており、エージェントはローカルセンサー入力(k\times k$ view)とローカル通信にのみ依存せざるを得ない。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
主要なLCM(例えば、deepseek-v3、o4-mini)のゼロショット評価は、タスク依存のパフォーマンスのかなりのバリエーションを示している。
いくつかの初歩的な調整が観察されているが、現在のLSMは、これらの分散化シナリオに固有の不確実性の下で、堅牢な長距離計画と適応戦略形成にかなり苦労している。
このようなSwarmライクな制約の下でLLMを評価することは、将来の分散型インテリジェントシステムにおいて、その実用性を理解する上で不可欠である。
SwarmBenchは、カスタマイズ可能な物理的システム提供環境、プロンプト、評価スクリプト、包括的なデータセット上に構築されたオープンで拡張可能なツールキットです。
本研究の目的は、LLMに基づくMAS調整に関する再現可能な研究と、重度の情報分散下での創発的集団行動の理論的基盤を育成することである。
コードリポジトリはhttps://github.com/x66ccff/swarmbench.comから入手可能です。
関連論文リスト
- EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Decentralized Low-Rank Fine-Tuning of Large Language Models [14.75695352321115]
我々は,Low-Rank Adaptation (LoRA)に基づく大規模言語モデル(LLM)のための分散微調整アルゴリズムであるDec-LoRAを提案する。
BERT と LLaMA の実験により,Dec-LoRA は様々な条件下で集中型 LoRA に匹敵する性能を示した。
これらの結果は、分散環境におけるスケーラブルな微調整のためのDec-LoRAの可能性を強調している。
論文 参考訳(メタデータ) (2025-01-26T01:56:25Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。