論文の概要: DPBench: Large Language Models Struggle with Simultaneous Coordination
- arxiv url: http://arxiv.org/abs/2602.13255v1
- Date: Mon, 02 Feb 2026 18:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.590403
- Title: DPBench: Large Language Models Struggle with Simultaneous Coordination
- Title(参考訳): DPBench: 大規模言語モデルと同時コーディネーション
- Authors: Najmul Hasan, Prashanth BusiReddyGari,
- Abstract要約: DPBenchは、決定タイミング、グループサイズ、コミュニケーションの異なる8つの条件の調整を評価するベンチマークである。
GPT-5.2、Claude Opus 4.5、Grok 4.1による実験では、顕著な非対称性が明らかとなった。
本研究は, 並列資源アクセスを必要とするマルチエージェントLLMシステムにおいて, 創発的調整に頼るのではなく, 外部調整機構が必要であることを示唆する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly deployed in multi-agent systems, yet we lack benchmarks that test whether they can coordinate under resource contention. We introduce DPBench, a benchmark based on the Dining Philosophers problem that evaluates LLM coordination across eight conditions that vary decision timing, group size, and communication. Our experiments with GPT-5.2, Claude Opus 4.5, and Grok 4.1 reveal a striking asymmetry: LLMs coordinate effectively in sequential settings but fail when decisions must be made simultaneously, with deadlock rates exceeding 95\% under some conditions. We trace this failure to convergent reasoning, where agents independently arrive at identical strategies that, when executed simultaneously, guarantee deadlock. Contrary to expectations, enabling communication does not resolve this problem and can even increase deadlock rates. Our findings suggest that multi-agent LLM systems requiring concurrent resource access may need external coordination mechanisms rather than relying on emergent coordination. DPBench is released as an open-source benchmark. Code and benchmark are available at https://github.com/najmulhasan-code/dpbench.
- Abstract(参考訳): 大規模言語モデルは、ますますマルチエージェントシステムにデプロイされているが、リソース競合の下で調整できるかどうかをテストするベンチマークは欠如している。
DPBenchは、決定タイミング、グループサイズ、コミュニケーションの異なる8つの条件でLCM調整を評価するダイニング・フィロソワーズ問題に基づくベンチマークである。
GPT-5.2、Claude Opus 4.5、Grok 4.1による実験では、顕著な非対称性が示された。
エージェントが独立して同じ戦略に到達し、同時に実行されるとデッドロックが保証されます。
期待とは対照的に、コミュニケーションの有効化はこの問題を解決せず、デッドロック率を高めることもできる。
本研究は, 並列資源アクセスを必要とするマルチエージェントLLMシステムにおいて, 創発的調整に頼るのではなく, 外部調整機構が必要であることを示唆する。
DPBenchはオープンソースベンチマークとしてリリースされた。
コードとベンチマークはhttps://github.com/najmulhasan-code/dpbench.comで公開されている。
関連論文リスト
- AgentCgroup: Understanding and Controlling OS Resources of AI Agents [2.8139711959925244]
AIエージェントは、サンドボックスコンテナ内でさまざまなツールコールを実行するマルチテナントクラウド環境にますますデプロイされている。
サンドボックス型AI符号化エージェントにおけるOSレベルの資源動態の系統的特徴について述べる。
予備評価は, マルチテナント分離の改善と資源廃棄物の削減を実証する。
論文 参考訳(メタデータ) (2026-02-10T02:37:42Z) - Programming over Thinking: Efficient and Robust Multi-Constraint Planning [54.77940831026738]
SCOPEは、クエリ固有の推論をジェネリックコード実行から切り離すフレームワークである。
SCOPEは、コストとレイテンシを下げながら最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-01-14T02:58:07Z) - Time Travel: LLM-Assisted Semantic Behavior Localization with Git Bisect [8.55768450285885]
本稿では,大規模言語モデル(LLM)をGitビスクトプロセスに統合し,セマンティックなフォールトローカライゼーションを実現する新しいフレームワークを提案する。
本システムでは, 雑音条件下でのコミット分析によるコミットを可能にするため, 構造的思考推論の連鎖によるビステクトトラバーサルを増強する。
論文 参考訳(メタデータ) (2025-11-24T07:49:59Z) - MSC-Bench: A Rigorous Benchmark for Multi-Server Tool Orchestration [0.0]
MSC-Benchは、LLMエージェントによるマルチホップ、エンドツーエンドのツールオーケストレーションを評価するための大規模なベンチマークである。
これは「等式集合」を通じて基底真理を構築することでギャップに対処し、F1スコアのような客観的なメトリクスを可能にする。
シングルツールオーケストレーションから複雑なクロスサーバ計画、スコープ外要求に対する堅牢性まで、エージェント機能を体系的にテストする。
論文 参考訳(メタデータ) (2025-10-22T09:45:11Z) - Group Think: Multiple Concurrent Reasoning Agents Collaborating at Token Level Granularity [17.41482851429631]
グループ思考は、複数の並行推論エージェントとして機能する単一の大きな言語モデルである。
グループシンクは、互いに部分的な生成の進捗を共通的に可視化することで、新しい並行推論パラダイムを導入している。
このきめ細かいトークンレベルのコラボレーションにより、Group Thinkは冗長な推論を削減し、レイテンシを大幅に低減しつつ、品質を向上させることができる。
論文 参考訳(メタデータ) (2025-05-16T10:40:35Z) - SweRank: Software Issue Localization with Code Ranking [109.3289316191729]
SweRankは、ソフトウェア問題ローカライゼーションのための効率的な検索と参照のためのフレームワークである。
パブリックなGitHubリポジトリからキュレートされた大規模なデータセットであるSweLocを構築します。
SweRankは最先端の性能を達成し、従来のランキングモデルとコストの高いエージェントベースシステムの両方より優れていることを示す。
論文 参考訳(メタデータ) (2025-05-07T19:44:09Z) - Benchmarking LLMs' Swarm intelligence [51.648605206159125]
大規模言語モデル(LLM)は複雑な推論の可能性を秘めているが、マルチエージェントシステム(MAS)における創発的協調の能力はほとんど探索されていない。
分散エージェントとして機能するLDMのタスクを体系的に評価する新しいベンチマークであるSwarmBenchを紹介する。
本稿では,協調効率の指標を提案し,創発的グループダイナミクスを解析する。
論文 参考訳(メタデータ) (2025-05-07T12:32:01Z) - Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MAgIC: Investigation of Large Language Model Powered Multi-Agent in Cognition, Adaptability, Rationality and Collaboration [98.18244218156492]
大規模言語モデル(LLM)は、非常に高度な自然言語処理を持つ。
アプリケーションがマルチエージェント環境に拡大するにつれて、包括的な評価フレームワークの必要性が生じる。
この研究は、マルチエージェント設定内でLLMを評価するための新しい競合ベースのベンチマークフレームワークを導入している。
論文 参考訳(メタデータ) (2023-11-14T21:46:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。