論文の概要: MARGIN: Runtime Confidence Calibration for Multi-Agent Foundation Model Coordination
- arxiv url: http://arxiv.org/abs/2605.22949v2
- Date: Wed, 27 May 2026 16:57:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.875346
- Title: MARGIN: Runtime Confidence Calibration for Multi-Agent Foundation Model Coordination
- Title(参考訳): MARGIN:マルチエージェントモデルコーディネーションのための実行時信頼度校正
- Authors: Joss Armstrong,
- Abstract要約: 本稿では,MARGIN(Multi-Agent Grading via Incremental Normalisation)を提案する。
18の基盤モデル、8のベンチマーク、44,000以上の観測結果から、MARGINは分布シフト時の最良の設計時ベースラインよりも3-6倍低いキャリブレーション誤差を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation model agents increasingly operate in multi-agent deployments where a coordinator must decide which agent's response to trust. The standard approach weights agents by their self-reported confidence, but recent evidence shows that foundation model confidence is systematically miscalibrated and, on hard tasks, inversely correlated with accuracy. Design-time calibration methods (temperature scaling, Platt scaling, histogram binning) cannot address this problem because they fit a fixed correction to held-out data and degrade under distribution shift. We present MARGIN (Multi-Agent Runtime Grading via Incremental Normalisation), an online calibration method that learns per-agent, per-confidence-band calibration factors from the task stream itself, requiring no model access, no held-out data, and no retraining. MARGIN uses symmetric exponentially weighted moving averages with Bayesian shrinkage blending, and has three hyperparameters with robust defaults. Across 18 foundation models, 8 benchmarks, and over 44,000 observations, MARGIN achieves 3-6x lower calibration error than the best design-time baseline under distribution shift. In multi-agent selection, raw verbalized confidence fails to beat random at pairwise resolution (43-50%) on hard benchmarks. MARGIN corrects this completely, raising pairwise resolution to 70-89% and closing 37-78% of the Raw-to-Oracle pass@1 gap across the five code-generation benchmarks without any oracle knowledge of which model is strongest. Six formal propositions characterize convergence, tracking speed, and the optimality of symmetric updates for non-strategic agents, with all predictions illustrated empirically.
- Abstract(参考訳): ファンデーションモデルエージェントは、コーディネータが信頼に対するエージェントの反応を決定する必要があるマルチエージェントデプロイメントにおいて、ますます運用される。
標準アプローチは、エージェントを自己報告された信頼度によって重み付けするが、最近の証拠は、基礎モデルの信頼度が体系的に誤解され、ハードタスクにおいて、逆の相関関係が正確であることを示している。
設計時キャリブレーション法 (温度スケーリング, プラットスケーリング, ヒストグラム結合) は, 保持データに一定の補正を施し, 分散シフトの下で劣化するので, この問題に対処できない。
MARGIN(Multi-Agent Runtime Grading via Incremental Normalisation)は,タスクストリーム自体からエージェントごと,信頼度毎のキャリブレーション要素を学習し,モデルアクセスを必要とせず,保持データも再トレーニングも不要なオンラインキャリブレーション手法である。
MARGINは対称指数関数的に重み付けされた移動平均とベイズ収縮の混合を使い、安定なデフォルトを持つ3つのハイパーパラメータを持つ。
18の基盤モデル、8のベンチマーク、44,000以上の観測結果から、MARGINは分布シフト時の最良の設計時ベースラインよりも3-6倍低いキャリブレーション誤差を達成している。
マルチエージェント選択では、頑健なベンチマークでペアの解像度(43-50%)で、生の言語化された自信がランダムに打ち負かされない。
MARGINはこれを完全に修正し、ペアワイズ解像度を70~89%に引き上げ、Raw-to-Oracleパス@1の37~78%を、どのモデルが最強であるかを知らない5つのコード生成ベンチマークで締めくくった。
6つの公式な命題は、収束、追跡速度、非ストラテジックエージェントの対称更新の最適性を特徴づけ、全ての予測を経験的に示している。
関連論文リスト
- Process Supervision of Confidence Margin for Calibrated LLM Reasoning [52.373121066425455]
強化学習(RL)によるテスト時間計算のスケーリングは,大規模言語モデル(LLM)推論能力を向上させるための信頼性の高い経路として登場した。
しかし、結果に基づく報酬は、しばしばモデルに過信感を与え、幻覚、信頼できない信頼ベースの制御、不要な計算割り当てをもたらす。
本稿では,信頼性と信頼性を両立させるキャリブレーションを意識したRLフレームワークであるReinforcement Learning with Confidence Margin(textbfRLCM)を紹介する。
論文 参考訳(メタデータ) (2026-04-25T14:40:13Z) - Unsupervised Confidence Calibration for Reasoning LLMs from a Single Generation [2.526814143603023]
言語モデルの推論は、ますます複雑なタスクを解決することができるが、信頼性の高いデプロイメントに必要なキャリブレーションされた信頼推定を生成するのに苦労する。
推論時間に1世代しか利用できない場合,LLMを推論するための教師なし信頼度校正手法を提案する。
このアプローチでは、ラベル付きデータのオフラインサンプリングを使用して、自己整合性ベースのプロキシターゲットを導出し、この信号を軽量なデプロイメント時間信頼性予測器に蒸留する。
論文 参考訳(メタデータ) (2026-04-21T13:25:25Z) - Online Reasoning Calibration: Test-Time Training Enables Generalizable Conformal LLM Reasoning [18.69627681731888]
オンライン推論校正(英語: Online Reasoning calibration、ORCA)は、整合予測とテストタイムトレーニングに基づいてサンプリングプロセスを校正するフレームワークである。
リスクレベルの$=0.1$で、ORCAはQwen2.5-32B効率を改善し、47.5%、監督ラベル40.7%、自己整合ラベル40.7%を節約する。
論文 参考訳(メタデータ) (2026-04-01T17:21:50Z) - CoRefine: Confidence-Guided Self-Refinement for Adaptive Test-Time Compute [10.548368675645403]
CoRefineは、トークンのごく一部を使って競争精度を達成する自信誘導型自己精製法である。
コントローラはフルトレースの信頼性を消費し、停止するか、再検査するか、あるいは別のアプローチを試すかを決定する。
これをCoRefine-Treeに拡張します。これは、探索とエクスプロイトを適応的にバランスさせる、ハイブリッドなシーケンシャル並列型です。
論文 参考訳(メタデータ) (2026-02-09T17:44:41Z) - Agentic Confidence Calibration [67.50096917021521]
Holistic Trajectory (HTC)はAIエージェントの新しい診断フレームワークである。
HTCはキャリブレーションと差別の両方において、強力なベースラインを一貫して超えている。
HTCは、障害の背後にあるシグナルを明らかにすることによって、解釈可能性を提供する。
論文 参考訳(メタデータ) (2026-01-22T09:08:25Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrated Interpretation: Confidence Estimation in Semantic Parsing [37.28245521206576]
一般的な4つのセマンティックパーシングデータセットのキャリブレーションについて検討する。
キャリブレーションエラーに関連する要因を分析し、2つの解析データセットの信頼度に基づく新たな課題分割を公表する。
論文 参考訳(メタデータ) (2022-11-14T15:17:55Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。