論文の概要: DPBench: Large Language Models Struggle with Simultaneous Coordination
- arxiv url: http://arxiv.org/abs/2602.13255v1
- Date: Mon, 02 Feb 2026 18:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.590403
- Title: DPBench: Large Language Models Struggle with Simultaneous Coordination
- Title(参考訳): DPBench: 大規模言語モデルと同時コーディネーション
- Authors: Najmul Hasan, Prashanth BusiReddyGari,
- Abstract要約: DPBenchは、決定タイミング、グループサイズ、コミュニケーションの異なる8つの条件の調整を評価するベンチマークである。
GPT-5.2、Claude Opus 4.5、Grok 4.1による実験では、顕著な非対称性が明らかとなった。
本研究は, 並列資源アクセスを必要とするマルチエージェントLLMシステムにおいて, 創発的調整に頼るのではなく, 外部調整機構が必要であることを示唆する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed in multi-agent systems, yet we lack benchmarks that test whether they can coordinate under resource contention. We introduce DPBench, a benchmark based on the Dining Philosophers problem that evaluates LLM coordination across eight conditions that vary decision timing, group size, and communication. Our experiments with GPT-5.2, Claude Opus 4.5, and Grok 4.1 reveal a striking asymmetry: LLMs coordinate effectively in sequential settings but fail when decisions must be made simultaneously, with deadlock rates exceeding 95\% under some conditions. We trace this failure to convergent reasoning, where agents independently arrive at identical strategies that, when executed simultaneously, guarantee deadlock. Contrary to expectations, enabling communication does not resolve this problem and can even increase deadlock rates. Our findings suggest that multi-agent LLM systems requiring concurrent resource access may need external coordination mechanisms rather than relying on emergent coordination. DPBench is released as an open-source benchmark. Code and benchmark are available at https://github.com/najmulhasan-code/dpbench.
- Abstract(参考訳): 大規模言語モデルは、ますますマルチエージェントシステムにデプロイされているが、リソース競合の下で調整できるかどうかをテストするベンチマークは欠如している。
DPBenchは、決定タイミング、グループサイズ、コミュニケーションの異なる8つの条件でLCM調整を評価するダイニング・フィロソワーズ問題に基づくベンチマークである。
GPT-5.2、Claude Opus 4.5、Grok 4.1による実験では、顕著な非対称性が示された。
エージェントが独立して同じ戦略に到達し、同時に実行されるとデッドロックが保証されます。
期待とは対照的に、コミュニケーションの有効化はこの問題を解決せず、デッドロック率を高めることもできる。
本研究は, 並列資源アクセスを必要とするマルチエージェントLLMシステムにおいて, 創発的調整に頼るのではなく, 外部調整機構が必要であることを示唆する。
DPBenchはオープンソースベンチマークとしてリリースされた。
コードとベンチマークはhttps://github.com/najmulhasan-code/dpbench.comで公開されている。
関連論文リスト
- Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity [17.41482851429631]
グループ思考は、複数の並行推論エージェントとして機能する単一の大きな言語モデルである。
グループシンクは、互いに部分的な生成の進捗を共通的に可視化することで、新しい並行推論パラダイムを導入している。
このきめ細かいトークンレベルのコラボレーションにより、Group Thinkは冗長な推論を削減し、レイテンシを大幅に低減しつつ、品質を向上させることができる。
論文 参考訳(メタデータ) (2025-05-16T10:40:35Z) - Benchmarking LLMs' Swarm intelligence [51.648605206159125]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。