論文の概要: CooperBench: Why Coding Agents Cannot be Your Teammates Yet
- arxiv url: http://arxiv.org/abs/2601.13295v2
- Date: Mon, 26 Jan 2026 00:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:06.893028
- Title: CooperBench: Why Coding Agents Cannot be Your Teammates Yet
- Title(参考訳): CooperBench: コーディングエージェントがチームメイトにならない理由
- Authors: Arpandeep Khatua, Hao Zhu, Peter Tran, Arya Prabhudesai, Frederic Sadrieh, Johann K. Lieberwirth, Xinkai Yu, Yicheng Fu, Michael J. Ryan, Jiaxin Pei, Diyi Yang,
- Abstract要約: CooperBenchは、4つのプログラミング言語で12のライブラリにまたがる600以上の協調コーディングタスクのベンチマークである。
エージェントは、両方のタスクを個別に実行するよりも、一緒に働く場合の平均30%低い成功率を達成する。
分析の結果,(1)コミュニケーションチャネルは不明瞭で不正確なメッセージに悩まされる,(2)効果的なコミュニケーションであっても,エージェントはコミットメントから逸脱する,(3)エージェントが他人の計画やコミュニケーションに対して誤った期待を抱いている,という3つの重要な問題が明らかになった。
- 参考スコア(独自算出の注目度): 44.06715229961526
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.
- Abstract(参考訳): チームの対立を解決するには、タスク固有の能力だけでなく、共通基盤を見つけ、コンセンサスを構築するソーシャルインテリジェンスも必要です。
AIエージェントが複雑な作業にますます協力するにつれて、効果的なチームメイトとして機能するコーディネート機能を開発する必要があります。
しかし、現在のエージェントにはこれらの能力がないという仮説を立てる。
これをテストするために、CooperBenchを紹介します。これは、4つのプログラミング言語で12のライブラリにまたがる600以上の協調的なコーディングタスクのベンチマークです。
各タスクは、独立して実装できる異なる2つのエージェントを割り当てるが、適切な調整なしに競合する可能性がある。
タスクは、専門家が書いたテストを備えた実際のオープンソースリポジトリに基盤を置いている。
我々は、最先端のコーディングエージェントを評価し、協調の呪いを観察する:エージェントは、双方のタスクを個別に実行するよりも、共同作業において平均30%低い成功率で達成する。
これは、チームメイトを追加することで生産性が向上する、という人間のチームとは対照的だ。
分析の結果,(1)コミュニケーションチャネルは不明瞭で不正確なメッセージに悩まされる,(2)効果的なコミュニケーションであっても,エージェントはコミットメントから逸脱する,(3)エージェントが他人の計画やコミュニケーションに対して誤った期待を抱いている,という3つの重要な問題が明らかになった。
また, 大規模シミュレーションにより, 役割分割, 資源分割, 交渉など, 稀だが興味深い協調行動も観察する。
本研究は、協調コーディングのための新しいベンチマークを提示し、個々のエージェント能力の追求からソーシャルインテリジェンスの開発へのシフトを求める。
関連論文リスト
- Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [50.657070334404835]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - ChatCollab: Exploring Collaboration Between Humans and AI Agents in Software Teams [1.3967206132709542]
ChatCollabの斬新なアーキテクチャは、エージェント(人間またはAI)が任意の役割でコラボレーションに参加することを可能にする。
ソフトウェアエンジニアリングをケーススタディとして使用することで、私たちのAIエージェントが彼らの役割と責任をうまく特定できることが分かりました。
ソフトウェア開発のための従来の3つのマルチエージェントAIシステムに関連して、ChatCollab AIエージェントはインタラクティブなゲーム開発タスクにおいて、同等またはより良いソフトウェアを生成する。
論文 参考訳(メタデータ) (2024-12-02T21:56:46Z) - Decentralized and Lifelong-Adaptive Multi-Agent Collaborative Learning [57.652899266553035]
分散型および生涯適応型多エージェント協調学習は、中央サーバを使わずに複数のエージェント間のコラボレーションを強化することを目的としている。
動的協調グラフを用いた分散マルチエージェント生涯協調学習アルゴリズムであるDeLAMAを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:21:11Z) - Cooperation on the Fly: Exploring Language Agents for Ad Hoc Teamwork in
the Avalon Game [25.823665278297057]
本研究は,自然言語によって駆動される環境下でエージェントが動作する,アドホックなチームワークの問題に焦点を当てる。
チームコラボレーションにおけるLLMエージェントの可能性を明らかにするとともに,コミュニケーションにおける幻覚に関連する課題を明らかにする。
この問題に対処するため,LLMに拡張メモリとコード駆動推論を備えた汎用エージェントであるCodeActを開発した。
論文 参考訳(メタデータ) (2023-12-29T08:26:54Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Building Cooperative Embodied Agents Modularly with Large Language
Models [104.57849816689559]
本研究では, 分散制御, 生の知覚観察, コストのかかるコミュニケーション, 様々な実施環境下でインスタンス化された多目的タスクといった課題に対処する。
我々は,LLMの常識知識,推論能力,言語理解,テキスト生成能力を活用し,認知に触発されたモジュラーフレームワークにシームレスに組み込む。
C-WAH と TDW-MAT を用いた実験により, GPT-4 で駆動される CoELA が, 強い計画に基づく手法を超越し, 創発的な効果的なコミュニケーションを示すことを示した。
論文 参考訳(メタデータ) (2023-07-05T17:59:27Z) - Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning [4.060731229044571]
アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。
エージェントの振る舞いを設計するためにドメイン知識を使用することで、エージェントに協調的なスキルを実装することができる。
本稿では,メタ強化学習(meta-RL)の定式化をアドホックなチームワーク問題に応用する。
論文 参考訳(メタデータ) (2021-11-05T12:01:28Z) - Behaviour-conditioned policies for cooperative reinforcement learning
tasks [41.74498230885008]
現実世界の様々なタスクにおいて、エージェントは未知のパートナーエージェントタイプと協力する必要がある。
深層強化学習モデルは、必要な機能を提供するためにトレーニングすることができるが、サンプルの非効率性と遅い学習に苦しむことが知られている。
本研究では,行動パターンの異なるエージェントの集団を合成的に生成する手法を提案する。
また、生成されたデータを効率的に利用し、メタ学習能力を得ることができるエージェントアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-10-04T09:16:41Z) - On the Critical Role of Conventions in Adaptive Human-AI Collaboration [73.21967490610142]
規則依存表現と規則依存表現を区別する学習フレームワークを提案する。
複雑性が異なる3つの共同作業に対するアプローチを実験的に検証します。
論文 参考訳(メタデータ) (2021-04-07T02:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。