論文の概要: CooperBench: Why Coding Agents Cannot be Your Teammates Yet
- arxiv url: http://arxiv.org/abs/2601.13295v2
- Date: Mon, 26 Jan 2026 00:36:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:06.893028
- Title: CooperBench: Why Coding Agents Cannot be Your Teammates Yet
- Title(参考訳): CooperBench: コーディングエージェントがチームメイトにならない理由
- Authors: Arpandeep Khatua, Hao Zhu, Peter Tran, Arya Prabhudesai, Frederic Sadrieh, Johann K. Lieberwirth, Xinkai Yu, Yicheng Fu, Michael J. Ryan, Jiaxin Pei, Diyi Yang,
- Abstract要約: CooperBenchは、4つのプログラミング言語で12のライブラリにまたがる600以上の協調コーディングタスクのベンチマークである。
エージェントは、両方のタスクを個別に実行するよりも、一緒に働く場合の平均30%低い成功率を達成する。
分析の結果,(1)コミュニケーションチャネルは不明瞭で不正確なメッセージに悩まされる,(2)効果的なコミュニケーションであっても,エージェントはコミットメントから逸脱する,(3)エージェントが他人の計画やコミュニケーションに対して誤った期待を抱いている,という3つの重要な問題が明らかになった。
- 参考スコア(独自算出の注目度): 44.06715229961526
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Resolving team conflicts requires not only task-specific competence, but also social intelligence to find common ground and build consensus. As AI agents increasingly collaborate on complex work, they must develop coordination capabilities to function as effective teammates. Yet we hypothesize that current agents lack these capabilities. To test this, we introduce CooperBench, a benchmark of over 600 collaborative coding tasks across 12 libraries in 4 programming languages. Each task assigns two agents different features that can be implemented independently but may conflict without proper coordination. Tasks are grounded in real open-source repositories with expert-written tests. Evaluating state-of-the-art coding agents, we observe the curse of coordination: agents achieve on average 30% lower success rates when working together compared to performing both tasks individually. This contrasts sharply with human teams, where adding teammates typically improves productivity. Our analysis reveals three key issues: (1) communication channels become jammed with vague, ill-timed, and inaccurate messages; (2) even with effective communication, agents deviate from their commitments; and (3) agents often hold incorrect expectations about others' plans and communication. Through large-scale simulation, we also observe rare but interesting emergent coordination behavior including role division, resource division, and negotiation. Our research presents a novel benchmark for collaborative coding and calls for a shift from pursuing individual agent capability to developing social intelligence.
- Abstract(参考訳): チームの対立を解決するには、タスク固有の能力だけでなく、共通基盤を見つけ、コンセンサスを構築するソーシャルインテリジェンスも必要です。
AIエージェントが複雑な作業にますます協力するにつれて、効果的なチームメイトとして機能するコーディネート機能を開発する必要があります。
しかし、現在のエージェントにはこれらの能力がないという仮説を立てる。
これをテストするために、CooperBenchを紹介します。これは、4つのプログラミング言語で12のライブラリにまたがる600以上の協調的なコーディングタスクのベンチマークです。
各タスクは、独立して実装できる異なる2つのエージェントを割り当てるが、適切な調整なしに競合する可能性がある。
タスクは、専門家が書いたテストを備えた実際のオープンソースリポジトリに基盤を置いている。
我々は、最先端のコーディングエージェントを評価し、協調の呪いを観察する:エージェントは、双方のタスクを個別に実行するよりも、共同作業において平均30%低い成功率で達成する。
これは、チームメイトを追加することで生産性が向上する、という人間のチームとは対照的だ。
分析の結果,(1)コミュニケーションチャネルは不明瞭で不正確なメッセージに悩まされる,(2)効果的なコミュニケーションであっても,エージェントはコミットメントから逸脱する,(3)エージェントが他人の計画やコミュニケーションに対して誤った期待を抱いている,という3つの重要な問題が明らかになった。
また, 大規模シミュレーションにより, 役割分割, 資源分割, 交渉など, 稀だが興味深い協調行動も観察する。
本研究は、協調コーディングのための新しいベンチマークを提示し、個々のエージェント能力の追求からソーシャルインテリジェンスの開発へのシフトを求める。
関連論文リスト
- Collaborative Gym: A Framework for Enabling and Evaluating Human-Agent Collaboration [50.657070334404835]
Collaborative Gymは、エージェント、人間、タスク環境間の非同期で三分割的なインタラクションを可能にするフレームワークである。
シミュレーション条件と実環境条件の両方において,Co-Gymを3つの代表的なタスクでインスタンス化する。
その結果、協調作業員はタスクパフォーマンスにおいて、完全に自律的なエージェントよりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-12-20T09:21:15Z) - ChatCollab: Exploring Collaboration Between Humans and AI Agents in Software Teams [1.3967206132709542]
ChatCollabの斬新なアーキテクチャは、エージェント(人間またはAI)が任意の役割でコラボレーションに参加することを可能にする。
ソフトウェアエンジニアリングをケーススタディとして使用することで、私たちのAIエージェントが彼らの役割と責任をうまく特定できることが分かりました。
ソフトウェア開発のための従来の3つのマルチエージェントAIシステムに関連して、ChatCollab AIエージェントはインタラクティブなゲーム開発タスクにおいて、同等またはより良いソフトウェアを生成する。
論文 参考訳(メタデータ) (2024-12-02T21:56:46Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - Learning to Cooperate with Unseen Agent via Meta-Reinforcement Learning [4.060731229044571]
アドホックなチームワーク問題は、エージェントが共通の目標を達成するために、以前は目に見えないエージェントと協力しなければならない状況を記述する。
エージェントの振る舞いを設計するためにドメイン知識を使用することで、エージェントに協調的なスキルを実装することができる。
本稿では,メタ強化学習(meta-RL)の定式化をアドホックなチームワーク問題に応用する。
論文 参考訳(メタデータ) (2021-11-05T12:01:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。