論文の概要: Benchmarking LLMs' Swarm intelligence
- arxiv url: http://arxiv.org/abs/2505.04364v1
- Date: Wed, 07 May 2025 12:32:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-08 19:07:36.068244
- Title: Benchmarking LLMs' Swarm intelligence
- Title(参考訳): LLMのSwarmインテリジェンスのベンチマーク
- Authors: Kai Ruan, Mowen Huang, Ji-Rong Wen, Hao Sun,
- Abstract要約: 大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
既存のベンチマークは、エージェントが不完全な時間的情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。
分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
- 参考スコア(独自算出の注目度): 50.544186914115045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict constraints-such as limited local perception and communication, characteristic of natural swarms-remains largely unexplored, particularly concerning the nuances of swarm intelligence. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination that arise when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k x k view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Evaluating several leading LLMs in a zero-shot setting, we find significant performance variations across tasks, highlighting the difficulties posed by local information constraints. While some coordination emerges, results indicate limitations in robust planning and strategy formation under uncertainty in these decentralized scenarios. Assessing LLMs under swarm-like conditions is crucial for realizing their potential in future decentralized systems. We release SwarmBench as an open, extensible toolkit-built upon a customizable and scalable physical system with defined mechanical properties. It provides environments, prompts, evaluation scripts, and the comprehensive experimental datasets generated, aiming to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of Embodied MAS. Our code repository is available at https://github.com/x66ccff/swarmbench.
- Abstract(参考訳): 大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、局所的な知覚やコミュニケーションの制限、自然の群れの特徴、特に群知性のニュアンスに関して、厳密な制約の下での動作において、マルチエージェントシステム(MAS)における創発的協調の能力を示す。
既存のベンチマークは、エージェントが不完全な時空間情報を扱うときに生じる分散調整のユニークな課題を完全には捉えないことが多い。
このギャップを埋めるために、分散エージェントとして機能するLLMのSwarmインテリジェンス能力を体系的に評価する新しいベンチマークSwarmBenchを紹介する。
SwarmBenchは、設定可能な2Dグリッド環境内の5つの基本的なMAS調整タスクを備えており、エージェントは、主にローカルセンサー入力(k x k view)とローカル通信に頼らざるを得ない。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
ゼロショット設定で複数の主要なLLMを評価すると、タスク間での大幅な性能変化が見られ、局所的な情報制約によって引き起こされる困難を浮き彫りにする。
いくつかの調整が出現する一方で、その結果は、これらの分散化されたシナリオにおける不確実性の下での、堅牢な計画と戦略形成の限界を示している。
Swarmのような条件下でのLSMの評価は、将来の分散型システムにおけるその可能性を実現する上で極めて重要である。
我々はSwarmBenchを,機械的特性が定義されたカスタマイズ可能でスケーラブルな物理システム上に構築されたオープンで拡張可能なツールキットとしてリリースする。
環境、プロンプト、評価スクリプト、および総合的な実験データセットを提供し、LLMベースのMASコーディネーションとエンボディードMASの理論的基盤に関する再現可能な研究を促進することを目的としている。
コードリポジトリはhttps://github.com/x66ccff/swarmbench.comから入手可能です。
関連論文リスト
- EmbodiedVSR: Dynamic Scene Graph-Guided Chain-of-Thought Reasoning for Visual Spatial Tasks [24.41705039390567]
EmbodiedVSR (Embodied Visual Space Reasoning) は動的シーングラフ誘導型Chain-of-Thought (CoT)推論を統合する新しいフレームワークである。
本手法はタスク固有の微調整なしでゼロショット空間推論を可能にする。
実験により,我々のフレームワークは,既存のMLLM法よりも精度と推論コヒーレンスにおいて優れていることが示された。
論文 参考訳(メタデータ) (2025-03-14T05:06:07Z) - Decentralized Low-Rank Fine-Tuning of Large Language Models [14.75695352321115]
我々は,Low-Rank Adaptation (LoRA)に基づく大規模言語モデル(LLM)のための分散微調整アルゴリズムであるDec-LoRAを提案する。
BERT と LLaMA の実験により,Dec-LoRA は様々な条件下で集中型 LoRA に匹敵する性能を示した。
これらの結果は、分散環境におけるスケーラブルな微調整のためのDec-LoRAの可能性を強調している。
論文 参考訳(メタデータ) (2025-01-26T01:56:25Z) - ET-Plan-Bench: Embodied Task-level Planning Benchmark Towards Spatial-Temporal Cognition with Foundation Models [38.89166693142495]
ET-Plan-Benchは、Large Language Models (LLMs) を用いたタスク計画の具体化のためのベンチマークである。
様々な難易度や複雑さのレベルにおいて、制御可能で多様な実施タスクが特徴である。
我々のベンチマークでは、大規模で定量化され、高度に自動化され、きめ細かな診断フレームワークとして認識されている。
論文 参考訳(メタデータ) (2024-10-02T19:56:38Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - Decentralized Local Stochastic Extra-Gradient for Variational
Inequalities [125.62877849447729]
我々は、不均一(非IID)で多くのデバイスに分散する問題データを持つ領域上での分散変分不等式(VIs)を考察する。
我々は、完全に分散化された計算の設定を網羅する計算ネットワークについて、非常に一般的な仮定を行う。
理論的には, モノトン, モノトンおよび非モノトンセッティングにおける収束速度を理論的に解析する。
論文 参考訳(メタデータ) (2021-06-15T17:45:51Z) - Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。
提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。
シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文 参考訳(メタデータ) (2020-10-06T16:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。