論文の概要: CADMAS-CTX: Contextual Capability Calibration for Multi-Agent Delegation
- arxiv url: http://arxiv.org/abs/2604.17950v1
- Date: Mon, 20 Apr 2026 08:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.76669
- Title: CADMAS-CTX: Contextual Capability Calibration for Multi-Agent Delegation
- Title(参考訳): CADMAS-CTX:マルチエージェントデリゲーションのためのコンテキスト能力校正
- Authors: Chuhan Qiao,
- Abstract要約: CADMAS-CTXはコンテキストキャリブレーションのためのフレームワークである。
階層的なコンテキスト能力プロファイルは、静的なスキルレベルの信頼性をコンテキスト条件の後方に置き換える。
GAIAとSWE-benchベンチマークを用いて,本手法の有効性を実証的に検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We revisit multi-agent delegation under a stronger and more realistic assumption: an agent's capability is not fixed at the skill level, but depends on task context. A coding agent may excel at short standalone edits yet fail on long-horizon debugging; a planner may perform well on shallow tasks yet degrade on chained dependencies. Static skill-level capability profiles therefore average over heterogeneous situations and can induce systematic misdelegation. We propose CADMAS-CTX, a framework for contextual capability calibration. For each agent, skill, and coarse context bucket, CADMAS-CTX maintains a Beta posterior that captures stable experience in that part of the task space. Delegation is then made by a risk-aware score that combines the posterior mean with an uncertainty penalty, so that agents delegate only when a peer appears better and that assessment is sufficiently well supported by evidence. This paper makes three contributions. First, a hierarchical contextual capability profile replaces static skill-level confidence with context-conditioned posteriors. Second, based on contextual bandit theory, we formally prove context-aware routing achieves lower cumulative regret than static routing under sufficient context heterogeneity, formalizing the bias-variance tradeoff. Third, we empirically validate our method on GAIA and SWE-bench benchmarks. On GAIA with GPT-4o agents, CADMAS-CTX achieves 0.442 accuracy, outperforming static baseline 0.381 and AutoGen 0.354 with non-overlapping 95% confidence intervals. On SWE-bench Lite, it improves resolve rate from 22.3% to 31.4%. Ablations show the uncertainty penalty improves robustness against context tagging noise. Our results demonstrate contextual calibration and risk-aware delegation significantly improve multi-agent teamwork compared with static global skill assignments.
- Abstract(参考訳): エージェントの能力はスキルレベルでは固定されていないが、タスクコンテキストに依存している。
コーディングエージェントは、短いスタンドアロンの編集で優れているが、長い水平デバッグでは失敗する。
したがって、静的なスキルレベルの能力プロファイルは異質な状況よりも平均的であり、体系的な誤解を引き起こす可能性がある。
本稿では,文脈的キャリブレーションのためのフレームワークであるCADMAS-CTXを提案する。
各エージェント、スキル、粗いコンテキストバケットに対して、CADMAS-CTXはタスク空間のその部分で安定したエクスペリエンスをキャプチャするベータ後部を維持している。
デリゲーションは、後部平均と不確実なペナルティを組み合わせたリスク認識スコアによって行われるため、エージェントはピアが良く見える場合にのみ委譲し、その評価は証拠によって十分に支持される。
この論文には3つの貢献がある。
まず、階層的なコンテキスト機能プロファイルは、静的スキルレベルの信頼性をコンテキスト条件の後方に置き換える。
第2に、文脈的帯域幅理論に基づいて、十分なコンテキストの不均一性の下で静的なルーティングよりも累積的後悔を減らし、バイアス分散トレードオフを形式化する。
第3に,GAIAとSWE-benchベンチマークにおいて,提案手法を実証的に検証した。
GPT-4o エージェントによるGAIAでは、CADMAS-CTX は 0.442 の精度で、静的ベースライン 0.381 と AutoGen 0.354 を95% の信頼区間で上回っている。
SWE-ベンチライトでは、22.3%から31.4%に改善されている。
アブレーションは、不確実性ペナルティがコンテキストタギングノイズに対するロバスト性を改善することを示している。
その結果,静的なグローバルスキルの割り当てに比べて,コンテキストキャリブレーションとリスク認識のデリゲーションは多エージェントチームワークを大幅に改善した。
関連論文リスト
- Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - TRACER: Trajectory Risk Aggregation for Critical Episodes in Agentic Reasoning [4.928838343487574]
既存の不確実性プロキシは、シングルショットテキスト生成に重点を置いている。
本稿では,マルチコントロールツール-エージェント-ユーザインタラクションのためのトラジェクトリレベルの不確実性指標であるTRACERを紹介する。
論文 参考訳(メタデータ) (2026-02-11T22:23:56Z) - Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - Agentic Rubrics as Contextual Verifiers for SWE Agents [8.469998524915818]
本稿では,エージェントルーブリックがSWEエージェントに対して,効率的でスケーラブルで粒度の高い検証信号を提供することを示す。
結果から,Agenic rubricsは接地トルーステストと整合性を示し,テストが捉えない問題をフラグ付けする。
論文 参考訳(メタデータ) (2026-01-07T18:38:23Z) - Rubric-Conditioned LLM Grading: Alignment, Uncertainty, and Robustness [4.129847064263056]
ルーブリックをベースとした短問合せ学習における大規模言語モデルの性能を体系的に評価する。
二つのタスクに対してアライメントは強いが、粗い粒度が増すにつれて劣化する。
実験により、モデルが注射に抵抗性がある一方で、同義置換に敏感であることが判明した。
論文 参考訳(メタデータ) (2025-12-21T05:22:04Z) - Stochasticity in Agentic Evaluations: Quantifying Inconsistency with Intraclass Correlation [0.7418138958218443]
クラス内相関係数(ICC)は、測定科学から分散を特徴づける指標である。
ICCは観測されたばらつきを、問合せ間分散(タスク困難)と問合せ内分散(エージェント不整合)に分解する
我々は、ICCが構造化タスクのn=8-16と複雑な推論のn>=32で収束し、実践者がエビデンスベースの再サンプリング予算を設定することを実証した。
論文 参考訳(メタデータ) (2025-12-07T07:58:13Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Trusted Uncertainty in Large Language Models: A Unified Framework for Confidence Calibration and Risk-Controlled Refusal [31.458406135473805]
異種不確実性証拠を正当性の校正確率に変換する統一フレームワークUniCRを提案する。
UniCRは、温度スケーリングと適切なスコアリングを備えた軽量なキャリブレーションヘッドを学習する。
ショートフォームQA、実行テスト付きコード生成、検索強化ロングフォームQAの実験は、キャリブレーションメトリクスの一貫性のある改善を示している。
論文 参考訳(メタデータ) (2025-09-01T13:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。