論文の概要: The Endogeneity of Miscalibration: Impossibility and Escape in Scored Reporting
- arxiv url: http://arxiv.org/abs/2605.07671v1
- Date: Fri, 08 May 2026 12:42:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:39.045601
- Title: The Endogeneity of Miscalibration: Impossibility and Escape in Scored Reporting
- Title(参考訳): ミススキャリブレーションの内在性--スコードレポーティングにおける不可能性とエスケープ
- Authors: Lauri Lovén, Sasu Tarkoma,
- Abstract要約: 自律エージェントからの真実の報告を排除することは、スケーラブルなAI監視における中核的な問題である。
プリンシパルは、厳密に適切なスコアリングルールを使用してエージェントのレポートをスコアリングするが、エージェントはまた、非正確チャンネルを通じてレポートの恩恵を受ける。
我々の主な成果は内在性であり、プリンシパルの最適監視は必ずしもスクリーンタイプに非ファイン承認関数を使用する。
- 参考スコア(独自算出の注目度): 2.3698341511302443
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Eliciting truthful reports from autonomous agents is a core problem in scalable AI oversight: a principal scores the agent's report using a strictly proper scoring rule, but the agent also benefits from the report through a non-accuracy channel (approval for autonomous action, allocation share, downstream control). The same structure appears in classical mechanism-design settings such as marketplace operation. Our main result is an endogeneity: the principal's optimal oversight necessarily uses a non-affine approval function to screen types, yet any non-affine approval makes truthful reporting suboptimal under the combined objective whenever deviation is undetectable. The principal cannot avoid the perturbation that undermines calibration. This impossibility holds for all strictly proper scoring rules, with a closed-form perturbation formula. A constructive escape exists: a step-function approval threshold achieves first-best screening for every strictly proper scoring rule, because the agent's binary inflate-or-not choice creates a type-space threshold regardless of the generator's curvature. Under the Brier score specifically, the type-independent inflation cost yields a welfare equivalence between second-best and first-best; we prove this equivalence is unique to Brier (the welfare gap under smooth $C^1$ oversight is bounded below by $Ω(\text{Var}(1/G'') (γ/β)^2)$ for every non-Brier rule). Two instances develop the framework: AI agent oversight (the lead motivating setting) and marketplace operation (a parallel mechanism-design domain). The message for AI alignment is direct: smooth scoring-based oversight cannot elicit truthful reports from a strategic agent; sharp thresholds are the calibration-preserving design.
- Abstract(参考訳): プリンシパルは、厳密に適切なスコアリングルールを使用してエージェントのレポートをスコアするが、エージェントはまた、非精度チャネル(自律的なアクション、アロケーションシェア、ダウンストリームコントロールの承認)を通じてレポートの恩恵を受ける。
同じ構造は、マーケットプレース操作のような古典的なメカニズム設計設定に現れる。
プリンシパルの最適監視は、必ずしも非アフィン承認関数をスクリーンタイプに使用するが、非アフィン承認は、偏差が検出不可能な場合に、組み合わせた目的の下で真に報告する。
校正は校正を損なう摂動を避けることはできない。
この不合理性は、すべての厳密な正当なスコアリング規則に、閉形式摂動公式で成り立つ。
ステップ機能承認閾値は、エージェントの2進インフレートまたはノーの選択が、ジェネレータの曲率に関係なくタイプスペース閾値を生成するため、厳密なスコアリングルールごとに第1のベストスクリーニングを達成する。
具体的には、タイプ非依存のインフレーションコストは、第2のベットと第1のベットの間の福祉等価性をもたらすが、この同値性はブライア特有のものであることを証明している(スムーズな$C^1$オーバーサイトの下での福祉ギャップは、すべての非ブリア規則に対して$Ω(\text{Var}(1/G') (γ/β)^2)$で制限される)。
このフレームワークの開発には、AIエージェント監視(リードモチベーション設定)とマーケットプレース操作(並列メカニズム設計ドメイン)の2つのインスタンスがある。
スムーズなスコアリングベースの監視は、戦略的エージェントから真実のレポートを引き出すことはできない。
関連論文リスト
- \mathsf{VISTA}: Decentralized Machine Learning in Adversary Dominated Environments [21.69919643934826]
分散機械学習は、評価などのアウトソーシング計算を信頼できないワーカノードに頼っていることが多い。
本稿では, 相互に整合性がある場合にのみ, 報告を受理し, 報奨するインセンティブ指向の枠組みを通じて, 敵に支配される設定について検討する。
本稿では,最適化履歴を用いた適応アルゴリズムであるmathsfVISTAを提案する。
論文 参考訳(メタデータ) (2026-05-08T15:07:15Z) - Governing What You Cannot Observe: Adaptive Runtime Governance for Autonomous AI Agents [0.0]
自律的なAIエージェントは、完全に認証されたままで、振る舞いのドリフト、敵の適応、決定パターンのシフトによって、コードの変更なしに、安全が保たれる。
エージェントの管理は、未観測のリスクに対する限界を見積もることを減らす。
textbfRiskGateはこのフレームワークを、専用の統計推定器(KL分散、セグメント-vs-rest $z$-tests、シーケンシャルパターンマッチング)、フェイルセーフなモノトニックパイプライン、クローズドループオートパイロットでインスタンス化する。
論文 参考訳(メタデータ) (2026-04-27T16:46:15Z) - Harness as an Asset: Enforcing Determinism via the Convergent AI Agent Framework (CAAF) [0.0]
大規模言語モデルは、安全クリティカルエンジニアリングにおける制御可能性のギャップを生み出します。
本稿では,エージェントをオープンループ生成からクローズループフェールセーフ決定性に移行するConvergent AI Agent Framework(CAAF)を紹介する。
CAAFの3つの柱は相補的な故障面に対処し、コモディティコストで制御可能性ギャップを閉じることはない。
論文 参考訳(メタデータ) (2026-04-18T15:15:09Z) - Conformal Tradeoffs: Guarantees Beyond Coverage [0.02648566468224904]
配置されたコンフォーマル予測器は、有限操作ウィンドウ上で稼働する長期間の意思決定基盤である。
マージのカバレッジは、デプロイメントに直面する量を特定しません。
私たちは、範囲を超えて運用の認証と計画のためのフレームワークを提供しています。
論文 参考訳(メタデータ) (2026-02-20T07:58:25Z) - PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents [11.440330367799513]
PRISMは、決定論的ゲートとデュアルプロセス推論アーキテクチャを結合する新しいフレームワークである。
フェスティナ・レンテ(ラテン語: "make haste slow")にインスパイアされた私たちは、受け入れ校正されたコスト由来の閾値でゲートする。
ProactiveBenchでは、PRISMは誤報を22.78%減らし、F1を20.14%改善している。
論文 参考訳(メタデータ) (2026-02-02T01:56:29Z) - LEC: Linear Expectation Constraints for False-Discovery Control in Selective Prediction and Routing Systems [95.35293543918762]
大規模言語モデル(LLM)はしばしば信頼できない答えを生成するが、不確実性のある手法は誤った予測と完全に区別することができない。
我々は、この問題を、偽発見率(FDR)制御のレンズを通して解決し、全ての許容された予測のうち、エラーの割合が目標のリスクレベルを超えないことを保証する。
本稿では,線形期待制約を強制することで,選択予測を制約付き決定問題として再解釈するLECを提案する。
論文 参考訳(メタデータ) (2025-12-01T11:27:09Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Uncertainty in Language Models: Assessment through Rank-Calibration [65.10149293133846]
言語モデル(LM)は、自然言語生成において有望な性能を示している。
与えられた入力に応答する際の不確実性を正確に定量化することは重要である。
我々は、LMの確実性と信頼性を評価するために、Rank$-$Calibration$と呼ばれる斬新で実用的なフレームワークを開発する。
論文 参考訳(メタデータ) (2024-04-04T02:31:05Z) - Tune it the Right Way: Unsupervised Validation of Domain Adaptation via
Soft Neighborhood Density [125.64297244986552]
本稿では,点間の類似度分布のエントロピーを計算し,ソフト近傍の密度を測定する教師なし検証基準を提案する。
私たちの基準は、競合する検証方法よりもシンプルですが、より効果的です。
論文 参考訳(メタデータ) (2021-08-24T17:41:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。