論文の概要: The Behavioral Credibility Trilemma: When Calibrated Autonomy Becomes Impossible
- arxiv url: http://arxiv.org/abs/2605.25739v1
- Date: Mon, 25 May 2026 11:51:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.849764
- Title: The Behavioral Credibility Trilemma: When Calibrated Autonomy Becomes Impossible
- Title(参考訳): 行動の信頼性のトリレンマ:キャリブレーションされた自律性が不可能になるとき
- Authors: Lauri Lovén, Nam Do, Hassan Mehmood, Dinesh Kumar Sah, Sasu Tarkoma,
- Abstract要約: 信頼性の高い自律性を備えた強化学習政策が,合理的な監視の下で,最大限の利便性,最適校正,完全自律性を同時に達成できることを実証する。
不合理性は幾何学的であり、厳密な適切なスコアリングルールに非アフィンの自律性インセンティブを追加することは、厳密な適正性を損なう。
- 参考スコア(独自算出の注目度): 2.625551547441965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We prove that no reinforcement learning policy with confidence-gated autonomy can simultaneously achieve maximum helpfulness, optimal calibration, and full autonomy under rational oversight, whenever some tasks exceed the agent's reliable competence: the Behavioral Credibility Trilemma. The impossibility is geometric -- adding any non-affine autonomy incentive to a strictly proper scoring rule destroys strict properness, so an agent rewarded for both calibrated confidence and autonomous action systematically inflates its reported confidence on tasks below the principal's approval threshold. The Behavioral Perturbation Lemma quantifies the inflation (scaling as $w_A/(2 w_C)$ for the Brier score) and shows detection requires $Ω(1/Δ^2)$ observations. We prove the principal's optimal oversight rule is necessarily non-affine, making the impossibility unconditional and optimizer-independent across log-concave-density policy families. We formalize the Confidence-Gated Decision Problem, map existing methods onto the trilemma, and identify two constructive resolution pathways (commitment, domain separation). A 540-configuration Best-of-N experiment tests five pre-registered hypotheses, all strongly confirmed (effect sizes $d = 1.10$ to $5.32$), and adds a descriptive analysis of the achievable-$(H, C, A)$ surface geometry showing a plateau-truncated frontier consistent with the predicted inflation saturation.
- Abstract(参考訳): 我々は,信頼性の高い自律性を備えた強化学習政策が,ある程度のタスクがエージェントの信頼度を超える場合,合理的な監視の下で,最大限の利便性,最適な校正,完全自律性を同時に達成できることを証明した。
不合理性は幾何学的であり、厳密な正当なスコアリングルールに非アフィンの自律的インセンティブを加えると、厳密な正当性を損なうため、校正された信頼と自律的な行動の両方に対して報酬を受けるエージェントは、校正の承認基準以下のタスクに対する報告された信頼を体系的に膨らませる。
振舞い摂動補題は、インフレーション(ブライアスコアに対して$w_A/(2 w_C)$とスケーリングする)を定量化し、検出には$Ω(1/Δ^2)$の観測が必要であることを示す。
我々は、プリンシパルの最適監視ルールが必ずしも非アフィンであることを証明する。
本稿では,信頼区間決定問題(Confidence-Gated Decision Problem)を定式化し,既存の手法をトリレンマにマッピングし,2つの構成的解決経路(コミット,ドメイン分離)を同定する。
540-configuration Best-of-N の実験では、5つの事前登録された仮説を検証し、すべて強く確認された(効果サイズは$d = 1.10$から$5.32$)。
関連論文リスト
- Survive or Collapse: The Asymmetric Roles of Data Gating and Reward Grounding in Self-Play RL [76.45061154544568]
セルフプレイ強化学習は、言語モデルを独自の生成タスクで訓練し、人間ラベルなしでプロジェクタとソルバを共進化させる。
最近のシステムでは強い推理効果が報告されているが、崩壊と不安定性は広く観察され、理解されていない。
代わりに、自己プレイの安定性は、提案者生成タスクがトレーニングプールに入るかを判断するデータレベルゲートと、すでに認められたタスクに関するポリシーを更新する報酬信号の2つの異なるレバーによって管理されていると論じる。
論文 参考訳(メタデータ) (2026-05-21T09:19:23Z) - The Endogeneity of Miscalibration: Impossibility and Escape in Scored Reporting [2.3698341511302443]
自律エージェントからの真実の報告を排除することは、スケーラブルなAI監視における中核的な問題である。
プリンシパルは、厳密に適切なスコアリングルールを使用してエージェントのレポートをスコアリングするが、エージェントはまた、非正確チャンネルを通じてレポートの恩恵を受ける。
我々の主な成果は内在性であり、プリンシパルの最適監視は必ずしもスクリーンタイプに非ファイン承認関数を使用する。
論文 参考訳(メタデータ) (2026-05-08T12:42:28Z) - TRUST: A Framework for Decentralized AI Service v.0.1 [47.384270414446604]
大規模推論モデル (LRM) とマルチエージェントシステム (MAS) は, 信頼性の高い検証を必要とする。
TRUST(Transparent, Robust, and Unified Services for Trustworthy AI)は,3つのイノベーションを備えた分散フレームワークである。
我々は、悪質な俳優が損失を被っている間、正直な監査人の利益を確実に確保する安全利益理論を証明する。
論文 参考訳(メタデータ) (2026-04-29T19:32:58Z) - The Geometric Canary: Predicting Steerability and Detecting Drift via Representational Stability [0.0]
表現の対距離構造の整合性である幾何学的安定性は、2つの関数に対処することを示す。
教師なしの安定性は、現実のタスクを操るために完全に失敗します。
ドリフト検出に優れ、トレーニング後のアライメントでCKAよりも2倍近い幾何変化を計測する。
論文 参考訳(メタデータ) (2026-04-20T01:24:45Z) - The Illusion of Certainty: Decoupling Capability and Calibration in On-Policy Distillation [67.26315138466312]
モデルロールアウトから経験的信頼性を推定するキャリブレーション対応のOPDフレームワークであるCaOPDを提案する。
本研究は, 能力蒸留が信頼性を示唆するものではないこと, 信頼性をポストトレーニングの本質的な目的として扱うべきであることを明らかにする。
論文 参考訳(メタデータ) (2026-04-18T04:43:40Z) - C$^2$GSPG: Confidence-calibrated Group Sequence Policy Gradient towards Self-aware Reasoning [54.705168477975384]
推論モデル学習のためのグループシーケンスポリシーグラディエント(GSPG)フレームワーク。
C$2$GSPGは、自信過剰を抑えながら推論性能を同時に向上させる。
論文 参考訳(メタデータ) (2025-09-27T05:24:51Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Core Safety Values for Provably Corrigible Agents [2.6451153531057985]
我々は,複数段階の部分的に観察された環境において,検証可能な保証を付与し,適応性のための最初の実装可能なフレームワークを紹介した。
私たちのフレームワークは、単一の報酬を5つの*構造的に分離された*ユーティリティヘッドに置き換えます。
敵がエージェントを修正できるオープンエンド設定では、任意のポストハックエージェントが調整性に反するかどうかを判断することは不可能である。
論文 参考訳(メタデータ) (2025-07-28T16:19:25Z) - Certifiably Robust Interpretation via Renyi Differential Privacy [77.04377192920741]
我々はRenyi差分プライバシー(RDP)の新しい視点から解釈堅牢性の問題を研究する。
まず、証明可能で証明可能なトップ$k$ロバスト性を提供する。
第二に、提案手法は既存の手法よりも実験的堅牢性を$sim10%$で提供する。
第3に,ロバスト性と計算効率のトレードオフを円滑に行うことができる。
論文 参考訳(メタデータ) (2021-07-04T06:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。