論文の概要: SPOQ: Specialist Orchestrated Queuing for Multi-Agent Software Engineering
- arxiv url: http://arxiv.org/abs/2606.03115v1
- Date: Tue, 02 Jun 2026 03:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.746345
- Title: SPOQ: Specialist Orchestrated Queuing for Multi-Agent Software Engineering
- Title(参考訳): SPOQ: マルチエージェントソフトウェアエンジニアリングのための特別なオーケストレーションキュー
- Authors: Royce Carbowitz, Dheeraj Kumar,
- Abstract要約: マルチエージェントAIシステムは、ソフトウェアエンジニアリングタスクの自動化を約束する。
既存のアプローチでは、調整のオーバーヘッド、品質管理のギャップ、人間の監視が制限されている。
SPOQ(Specialist Orchestrated Queuing)は,3つのイノベーションを組み合わせた方法論である。
- 参考スコア(独自算出の注目度): 2.0769172070951067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent AI systems show promise for automating software engineering tasks, yet existing approaches suffer from coordination overhead, quality control gaps, and limited human oversight. We introduce SPOQ (Specialist Orchestrated Queuing), a methodology combining three innovations: (1) wave-based topological dispatch that computes parallel execution waves from task dependency graphs; (2) dual validation gates applying quality metrics before execution (planning validation) and after (code validation) to reduce rework cycles; and (3) Human-as-an-Agent (HaaA) integration, where a human specialist participates in decomposition and can be consulted during execution. SPOQ uses a three-tier agent hierarchy (Opus workers, Sonnet reviewers, Haiku investigators) to optimize cost-quality tradeoffs. We evaluate SPOQ through four experiments. Experiment 1: wave dispatch approaches the critical-path lower bound (ratio 1.03--1.11, speedup up to 14.3x); on a 2-slot local backend it delivers a stable 1.4x speedup. Experiment 2: SPOQ improves planning coverage from 93.0 to 99.75, eliminates cyclic plans, and lifts parallelism from 31.0 to 75.25. Experiment 3: dual validation reduces defects from 0.34 to 0.20 per task and lifts test pass rate from 91.25% to 99.75%. Experiment 4: human review reduces residual defects from 0.47 to 0.03 per task. Results are replicated on a locally hosted open-weights model (Qwen3.6-35B-A3B), verifying gains are attributable to orchestration rather than any specific model. A longitudinal study across 17 repositories, 8,589 commits, 1,822 tasks, and 13,866 tests (99.87% pass rate) provides ecological validation.
- Abstract(参考訳): マルチエージェントAIシステムは、ソフトウェアエンジニアリングタスクの自動化を約束するが、既存のアプローチでは、調整オーバーヘッド、品質管理のギャップ、人間の監督が制限されている。
本稿では,(1)タスク依存グラフからの並列実行波を計算する波動ベースのトポロジ的ディスパッチ,(2)実行前の品質指標(計画検証)と後(コード検証)を適用して再作業サイクルを削減する2つの検証ゲート,(3)ヒューマン・アズ・ア・ア・エージェント(HaaA)の統合,という3つのイノベーションを組み合わせた手法を紹介する。
SPOQは、コスト品質のトレードオフを最適化するために、3層エージェント階層(Opus workers、Sonnetレビュアー、Haiku investigators)を使用する。
SPOQを4つの実験により評価した。
実験1:波のディスパッチはクリティカルパスの下限(ratio 1.03--1.11, speedup up to 14.3x)に近づき、2スロットのローカルバックエンドでは安定した1.4倍のスピードアップを提供する。
実験2: SPOQは計画カバレッジを93.0から99.75に改善し、サイクルプランを廃止し、並列性を31.0から75.25に引き上げる。
実験3: 二重検証は、欠陥をタスク毎に0.34から0.20に減らし、テストパスレートを91.25%から99.75%に引き上げる。
実験4: 人間のレビューは、残余の欠陥をタスク毎に0.47から0.03に削減する。
結果はローカルにホストされたオープンウェイトモデル(Qwen3.6-35B-A3B)で複製される。
17のレポジトリ、8,589のコミット、1,822のタスク、13,866のテスト(99.87%のパスレート)にわたる縦断調査は、生態学的検証を提供する。
関連論文リスト
- A-ProS: Towards Reliable Autonomous Programming Through Multi-Model Feedback [4.062253229926774]
A-ProSは、ハイブリッドマルチモデルフィードバックフレームワークを通じて競合するプログラミング問題を解決する自律AIエージェントである。
A-ProSはベースラインエージェントループに比べて2倍以上のゲインを達成する。
論文 参考訳(メタデータ) (2026-05-18T08:55:30Z) - EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents [75.01735520608075]
既存のベンチマークは、直観的信念を問うことで、主にリテラル・オブ・マインド(ToM)をテストする。
EnactToMは, 3D 家庭で設定された300個のマルチエージェントタスクの進化ベンチマークである。
ハードスプリットでは、7つの評価されたフロンティアモデルすべてが機能的なタスク完了時に0.0%のPass3を獲得し、リテラルな信念プローブでは平均45.0%であった。
論文 参考訳(メタデータ) (2026-05-11T00:04:19Z) - AgentEval: DAG-Structured Step-Level Evaluation for Agentic Workflows with Error Propagation Tracking [13.891522069967507]
本稿では,エージェント実行を指向非巡回グラフ(DAG)として形式化するフレームワークであるAgentEvalを提案する。
AgentEvalは、エンドツーエンドの評価よりも2.17倍高いエラー検出リコールを実現し、72%の根本原因精度を81%の天井に対して達成している。
論文 参考訳(メタデータ) (2026-04-26T07:38:47Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - AIRA_2: Overcoming Bottlenecks in AI Research Agents [31.269750755536247]
既存の研究は、AI研究エージェントにおける3つの構造的パフォーマンスボトルネックを特定している。
AIRA$は、3つのアーキテクチャ選択を通じてこれらのボトルネックに対処します。
MLE-bench-30では、AIRA$が平均71.8%のパーセンタイルランクを24時間で達成し、前回の69.9%を上回った。
論文 参考訳(メタデータ) (2026-03-27T15:02:43Z) - Orchestrating Human-AI Software Delivery: A Retrospective Longitudinal Field Study of Three Software Modernization Programs [0.0]
我々は,4段階にわたる人間とAIエージェントを協調する産業用プラットフォームであるChironについて,縦断調査を行った。
この研究は、3つの実際のソフトウェアモダナイゼーションプログラムをカバーしている。バンキングマイグレーション(30k LOC)、大規模な会計モダナイゼーション(400k LOC)、.NET/Angular住宅ローンのモダナイゼーション(30k LOC)である。
このベンチマークは、観察された結果(ステージ期間、タスクボリューム、検証ステージの問題、最初のリリースカバレッジ)をモデル化された結果から分離する。
論文 参考訳(メタデータ) (2026-03-20T15:14:36Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。