論文の概要: TeamBench: Evaluating Agent Coordination under Enforced Role Separation
- arxiv url: http://arxiv.org/abs/2605.07073v1
- Date: Fri, 08 May 2026 00:48:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.699761
- Title: TeamBench: Evaluating Agent Coordination under Enforced Role Separation
- Title(参考訳): TeamBench: 強制的な役割分離の下でのエージェントコーディネーションの評価
- Authors: Yubin Kim, Chanwoo Park, Taehan Kim, Eugene Park, Samuel Schmidgall, Salman Rahman, Chunjong Park, Cynthia Breazeal, Xin Liu, Hamid Palangi, Hae Won Park, Daniel McDuff,
- Abstract要約: TeamBenchは、オペレーティングシステムの強化されたロール分離の下でエージェント調整を評価するためのベンチマークである。
TeamBenchは仕様アクセス、ワークスペース編集、Planner、Executor、Verifierロール間の最終認証を分離する。
- 参考スコア(独自算出の注目度): 37.301600461027654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agent systems often decompose a task across multiple roles, but these roles are typically specified by prompts rather than enforced by access controls. Without enforcement, a team pass rate can mask whether agents actually coordinated or whether one role effectively did another role's work. We present TeamBench, a benchmark with 851 task templates and 931 seeded instances for evaluating agent coordination under operating system-enforced role separation. TeamBench separates specification access, workspace editing, and final certification across Planner, Executor, and Verifier roles, so that no role can read the full requirements, modify the workspace, and certify the final answer. Prompt-only and sandbox-enforced teams reach statistically indistinguishable pass rates, but prompt-only runs produce 3.6 times more cases where the verifier attempts to edit the executor's code. Verifiers approve 49% of submissions that fail the deterministic grader, and removing the verifier improves mean partial score in the ablation. Team value is also conditional. Teams benefit when single agents struggle, but hurt when single agents already perform well. A 40-session human study under the same role separation shows that our benchmark exposes interaction patterns that pass rate misses. Solo participants work through the task directly, human participants paired with agents often collapse into quick approval, and human teams spend more effort coordinating missing information across roles.
- Abstract(参考訳): エージェントシステムは、しばしば複数のロールにまたがってタスクを分解するが、これらのロールは通常、アクセス制御によって強制されるのではなく、プロンプトによって指定される。
執行がなければ、チームのパスレートは、エージェントが実際に調整したのか、あるロールが他のロールの仕事を効果的にこなしたのかを隠蔽することができる。
タスクテンプレート851とシードインスタンス931のベンチマークであるTeamBenchを,オペレーティングシステムの強化された役割分離の下でエージェント調整を評価する。
TeamBenchは仕様アクセス、ワークスペースの編集、Planner、Executor、Verifierロール間の最終認証を分離している。
プロンプト限定とサンドボックス強化のチームは統計的に区別できないパスレートに達するが、プロンプト限定では、検証者が実行者のコードを編集しようとする場合の3.6倍のケースが生成される。
検証者は、決定的グレーダに失敗する応募の49%を承認し、検証者を削除することにより、アブレーションの平均部分スコアが向上する。
チームの価値も条件付きです。
単一のエージェントが苦労するとチームは利益を得るが、単一のエージェントがすでにうまく機能している場合には傷つく。
同じ役割分離の下での40分の1の人間による研究は、我々のベンチマークが、レートミスをパスする相互作用パターンを露呈していることを示している。
Soloの参加者は、タスクを直接実行し、エージェントとペアになった人間の参加者は、しばしばすぐに承認される。
関連論文リスト
- Improving the Efficiency of Language Agent Teams with Adaptive Task Graphs [52.26652574704317]
大規模言語モデル(LLM)はますますチームにデプロイされているが、既存のコーディネーションアプローチは2つの極端な部分を占めることが多い。
本稿では,Language Agent Teams for Task Evolution (LATTE)を紹介した。
論文 参考訳(メタデータ) (2026-05-07T14:19:17Z) - ClawMark: A Living-World Benchmark for Multi-Turn, Multi-Day, Multimodal Coworker Agents [77.22389710754452]
マルチターンマルチデイタスクを中心に構築された同僚エージェントのベンチマークであるベンチを紹介する。
現在のリリースには、13のプロのシナリオにわたる100のタスクが含まれており、5つのステートフルなサンドボックスサービスに対して実行される。
最強のモデルは75.8の重み付きスコアに達するが、最も厳格なタスク成功率は20.0%に過ぎず、部分的な進歩が一般的であることを示している。
論文 参考訳(メタデータ) (2026-04-26T16:05:02Z) - Auditing and Controlling AI Agent Actions in Spreadsheets [9.249091427192786]
AIエージェントは、開始から終了まで自律的に洗練された多段階の知識ワークを実行することができる。
ユーザがアウトプットを受け取るまでには、すべての基本的な決定は、その関与なしにすでに行われています。
我々は、監査可能な制御可能なアクションに実行を分解するスプレッドシートAIエージェントであるPistaを紹介する。
論文 参考訳(メタデータ) (2026-04-22T00:32:35Z) - Ask or Assume? Uncertainty-Aware Clarification-Seeking in Coding Agents [4.301199871195023]
大規模言語モデル(LLM)エージェントは、ソフトウェア工学のようなオープンなドメインにますますデプロイされています。
我々は, SWE-bench Verified の未特定変種に対する LLM エージェントの解明と探索能力を評価する。
コード実行から不特定性検出を明示的に分離する不確実性認識型マルチエージェントスキャフォールドを提案する。
論文 参考訳(メタデータ) (2026-03-27T09:56:26Z) - If You Want Coherence, Orchestrate a Team of Rivals: Multi-Agent Models of Organizational Intelligence [1.1637186977447433]
完全コンポーネントを得ることなく、不完全なコンポーネントを慎重にオーケストレーションすることで信頼性を実現することができることを示す。
本稿では,このようなシステムのアーキテクチャについて述べる。特殊エージェントチーム(プランナ,実行者,評論家,専門家)。
提案手法は,ユーザの露出前に90%以上の内部エラーインターセプションを達成し,許容可能なレイテンシトレードオフを維持していることを示す。
論文 参考訳(メタデータ) (2026-01-20T17:19:09Z) - Collaborative Multi-Agent Test-Time Reinforcement Learning for Reasoning [112.16686518063456]
textbfMulti-Agent Test-Time Reinforcement Learning (MATTRL)を導入する。
MATTRLは、マルチターンの議論、テストタイムの経験の検索と統合、最終的な意思決定のコンセンサスに到達するための、複数の専門家のチームを形成する。
MATTRLは、医学、数学、教育の挑戦的なベンチマーク全体にわたって、マルチエージェントベースラインで平均3.67%、同等のシングルエージェントベースラインで平均8.67%の精度を向上する。
論文 参考訳(メタデータ) (2026-01-14T17:57:43Z) - MoRAgent: Parameter Efficient Agent Tuning with Mixture-of-Roles [25.198556596878362]
本稿では,エージェントタスクにおけるパラメータ効率細調整(PEFT)の3つの重要な戦略を紹介する。
より支配的なReason+Actionパラダイムに着想を得て、エージェントタスクに必要な機能を3つの異なる役割に分解する。
そこで我々は3つのLoRAグループからなるMixture-of-Roles(Mixture-of-Roles)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-25T15:02:07Z) - When Disagreements Elicit Robustness: Investigating Self-Repair Capabilities under LLM Multi-Agent Disagreements [56.29265568399648]
我々は、不一致が早期のコンセンサスを防ぎ、探索されたソリューション空間を拡張することを主張する。
タスククリティカルなステップの相違は、ソリューションパスのトポロジによってコラボレーションを損なう可能性がある。
論文 参考訳(メタデータ) (2025-02-21T02:24:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。