論文の概要: The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?
- arxiv url: http://arxiv.org/abs/2603.09947v1
- Date: Tue, 10 Mar 2026 17:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.511268
- Title: The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?
- Title(参考訳): The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain?
- Authors: Ronald Doku,
- Abstract要約: ランク付けされた決定システムは、いつランク付けされたアウトプットに介入するか、いつ停止するかを判断しなければならない。
信頼に基づく棄権が意思決定の質を単調に改善し、いつ失敗するかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ranked decision systems -- recommenders, ad auctions, clinical triage queues -- must decide when to intervene in ranked outputs and when to abstain. We study when confidence-based abstention monotonically improves decision quality, and when it fails. The formal conditions are simple: rank-alignment and no inversion zones. The substantive contribution is identifying why these conditions hold or fail: the distinction between structural uncertainty (missing data, e.g., cold-start) and contextual uncertainty (missing context, e.g., temporal drift). Empirically, we validate this distinction across three domains: collaborative filtering (MovieLens, 3 distribution shifts), e-commerce intent detection (RetailRocket, Criteo, Yoochoose), and clinical pathway triage (MIMIC-IV). Structural uncertainty produces near-monotonic abstention gains in all domains; structurally grounded confidence signals (observation counts) fail under contextual drift, producing as many monotonicity violations as random abstention on our MovieLens temporal split. Context-aware alternatives -- ensemble disagreement and recency features -- substantially narrow the gap (reducing violations from 3 to 1--2) but do not fully restore monotonicity, suggesting that contextual uncertainty poses qualitatively different challenges. Exception labels defined from residuals degrade substantially under distribution shift (AUC drops from 0.71 to 0.61--0.62 across three splits), providing a clean negative result against the common practice of exception-based intervention. The results provide a practical deployment diagnostic: check C1 and C2 on held-out data before deploying a confidence gate, and match the confidence signal to the dominant uncertainty type.
- Abstract(参考訳): ランク付けされた意思決定システム – 推薦者、広告オークション、臨床トリアージキュー – は、いつランク付けされたアウトプットに介入するか、いつ停止するかを判断しなければならない。
信頼に基づく棄権が意思決定の質を単調に改善し、いつ失敗するかを考察する。
形式的条件は単純で、ランクアライメントと反転ゾーンがない。
実質的な寄与は、構造的不確実性(例えば、コールドスタート)と文脈的不確実性(例えば、時間的ドリフト)の区別である。
実験により,共同フィルタリング(MovieLens,3分布シフト),eコマース意図検出(RetailRocket,Criteo,Yoochoose),臨床パストリアージ(MIMIC-IV)の3分野にまたがって,この区別を検証した。
構造的不確実性は、すべての領域においてほぼ単調な禁忌の利得を生じさせる; 構造的根拠を持つ信頼信号(観測数)は、文脈的ドリフトの下で失敗し、MovieLensの時間分割におけるランダムな禁忌と同様に、多くの単調性違反を引き起こす。
コンテキスト認識の代替手段 -- アンサンブルの不一致とリレーレンシーの特徴 -- は、ギャップを大幅に狭め(3から1~2への違反の低減)、完全なモノトニック性は回復せず、文脈の不確実性が質的に異なる課題を引き起こすことを示唆している。残余から定義された例外ラベルは、分布シフトで著しく低下する(AUCは3分割で0.71から0.61-0.62に減少し、例外ベースの介入の一般的な実践に対して明確なネガティブな結果をもたらす)。
その結果、信頼ゲートを配置する前に、ホールドアウトデータ上でC1,C2をチェックし、信頼信号と支配的不確実性タイプとを一致させる、実用的なデプロイメント診断が提供される。
関連論文リスト
- Machine Learning for Stress Testing: Uncertainty Decomposition in Causal Panel Prediction [2.289837306672451]
規制ストレステストでは、仮説的なマクロ経済シナリオの下で信用損失を予測する必要がある。
パネルにおけるポリシーパスの反ファクト推論のためのフレームワークを提案する。
実失業データを用いたシミュレーションおよび半合成実験により,すべての結果を検証した。
論文 参考訳(メタデータ) (2026-03-08T03:22:38Z) - On the Structural Non-Preservation of Epistemic Behaviour under Policy Transformation [51.56484100374058]
このような情報条件の相互作用パターンを振る舞い依存として定式化する。
これにより、$$-behavioural equivalenceというプローブ相対的な概念と、政治内行動距離が導かれる。
その結果、共通政策変換の下でプローブ条件の挙動分離が保存されない構造条件が明らかになった。
論文 参考訳(メタデータ) (2026-02-24T22:55:21Z) - Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say "I Don't Know" [47.930782177987446]
大規模言語モデルは、クローズドブックの質問応答において知識限界を認識するのに苦労することが多く、自信ある幻覚へと繋がる。
我々は、モデルスケールの異なるDirect、Assistive、Incrementalの3つのタスク等価プロンプトとマルチホップQAベンチマークを評価した。
幻覚が一致している間に事実知識が安定しているため、クロスレジームは内部の不確実性の正確なシグナルを与える。
論文 参考訳(メタデータ) (2026-02-04T18:39:58Z) - Decomposing Uncertainty in Probabilistic Knowledge Graph Embeddings: Why Entity Variance Is Not Enough [0.0]
確率的知識グラフの埋め込みは、エンティティを分布として表現し、学習された分散を用いて不確実性を定量化する。
これらの分散は関係に依存しないため、関係文脈に関係なく実体は同一の不確実性を受ける。
関係文脈に依存しないエンティティレベルの統計のみを用いた不確実性推定器は、新しい文脈でほぼランダムなOOD検出を実現する。
論文 参考訳(メタデータ) (2025-12-26T12:38:43Z) - Calibrated Decomposition of Aleatoric and Epistemic Uncertainty in Deep Features for Inference-Time Adaptation [3.018583625592182]
ほとんどの推定器は、全ての不確実性モードを単一の信頼スコアに分解し、いつより多くの計算を割り当てるか、あるいは推論を調整するべきかについての信頼性の高い推論を防ぐ。
非確実性誘導推論時間選択(Uncertainty-Guided Inference-Time Selection)は,データ駆動型(データ駆動型)とモデル駆動型不確実性を,深い特徴空間で直接的に解消する軽量な推論時間フレームワークである。
論文 参考訳(メタデータ) (2025-11-15T23:47:30Z) - Adaptive Dual Uncertainty Optimization: Boosting Monocular 3D Object Detection under Test-Time Shifts [80.32933059529135]
TTA(Test-Time Adaptation)メソッドが出現し、推論中にターゲット分布に適応する。
我々は、堅牢なM3ODの両不確実性を共同で最小化するために設計された、最初のTTAフレームワークであるDual Uncertainity Optimization (DUO)を提案する。
並列に,明瞭な意味的手がかりを持つ領域における幾何学的コヒーレンスを保存する意味認識型正規場制約を設計する。
論文 参考訳(メタデータ) (2025-08-28T07:09:21Z) - TrustLoRA: Low-Rank Adaptation for Failure Detection under Out-of-distribution Data [62.22804234013273]
本稿では,共変量および意味的シフトの両条件下での拒絶による分類を統一し,促進する,単純な故障検出フレームワークを提案する。
キーとなる洞察は、障害固有の信頼性知識を低ランクアダプタで分離し、統合することにより、障害検出能力を効果的かつ柔軟に向上できるということです。
論文 参考訳(メタデータ) (2025-04-20T09:20:55Z) - Distributional Shift-Aware Off-Policy Interval Estimation: A Unified
Error Quantification Framework [8.572441599469597]
本研究では、無限水平マルコフ決定過程の文脈における高信頼オフ政治評価について検討する。
目的は、未知の行動ポリシーから事前に収集されたオフラインデータのみを用いて、対象の政策値に対する信頼区間(CI)を確立することである。
提案アルゴリズムは, 非線形関数近似設定においても, サンプル効率, 誤差ローバスト, 既知収束性を示す。
論文 参考訳(メタデータ) (2023-09-23T06:35:44Z) - When Does Confidence-Based Cascade Deferral Suffice? [69.28314307469381]
カスケードは、推論コストをサンプル毎に適応的に変化させる古典的な戦略である。
deferralルールは、シーケンス内の次の分類子を呼び出すか、または予測を終了するかを決定する。
カスケードの構造に執着しているにもかかわらず、信頼に基づく推論は実際は極めてうまく機能することが多い。
論文 参考訳(メタデータ) (2023-07-06T04:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。