論文の概要: Label-Free Detection of Governance Evidence Degradation in Risk Decision Systems
- arxiv url: http://arxiv.org/abs/2604.17836v1
- Date: Mon, 20 Apr 2026 05:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.714655
- Title: Label-Free Detection of Governance Evidence Degradation in Risk Decision Systems
- Title(参考訳): リスク決定システムにおけるラベルフリーによるガバナンス証拠の劣化検出
- Authors: Oleg Solozobov,
- Abstract要約: 不正検出・信用スコアリングにおけるリスク決定システムは、構造ラベルが存在しない状態で運用される。
既存のフレームワークは、ドリフト検出とガバナンスエビデンス評価と運用対応を統合していません。
本稿では,ガバナンスドリフトツールキットのラベルフリーガバナンス監視拡張について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Risk decision systems in fraud detection and credit scoring operate under structural label absence: ground truth arrives weeks to months after decisions are made. During this blind period, model performance may degrade silently, eroding the governance evidence that justifies automated decisions. Existing drift detection methods either require labels (supervised detectors) or detect statistical change without distinguishing harmful degradation from benign distributional evolution (unsupervised detectors). No existing framework integrates drift detection with governance evidence assessment and operational response. This paper presents a label-free governance monitoring extension to the Governance Drift Toolkit that produces governance alerts rather than statistical alarms. The monitoring architecture applies composite multi-proxy monitoring across four proxy monitors (score distribution, feature drift, prediction entropy, confidence distribution), with governance-calibrated thresholds. Empirical evaluation on the Lending Club credit scoring dataset (1.37M loans, 11 years) demonstrates three findings. First, raw proxy metrics (Feature PSI delta up to 1.84, Score PSI delta up to 0.92) distinguish injected covariate degradation from natural temporal drift in an offline evaluation setting. Second, pure concept drift in P(Y|X) produces exactly zero delta across all proxy metrics in all windows, confirming the irreducible blind spot of label-free monitoring as a structural verification. Third, the composite score provides monotonic severity progression as more monitors trigger (0.583 to 0.833 to 1.000), enabling graduated governance response. Cross-domain comparison with IEEE-CIS fraud detection results shows the detectable/undetectable boundary is consistent across both domains. The toolkit and evaluation code are available as open-source artifacts.
- Abstract(参考訳): 不正検出および信用スコアリングにおけるリスク決定システムは、構造的ラベルの欠如の下で運用される。
この盲目な期間に、モデルパフォーマンスは静かに低下し、自動決定を正当化するガバナンスエビデンスを侵食する可能性がある。
既存のドリフト検出方法はラベル(教師なし検出器)を必要とするか、良性分布進化(教師なし検出器)からの有害な劣化を区別することなく統計的変化を検出する。
既存のフレームワークは、ドリフト検出とガバナンスエビデンス評価と運用対応を統合していません。
本稿では,統計アラームではなく,ガバナンスアラートを生成するガバナンスドリフトツールキットのラベルフリーガバナンス監視拡張について述べる。
監視アーキテクチャは、4つのプロキシモニタ(スコア分布、フィーチャードリフト、予測エントロピー、信頼性分布)に、ガバナンスの基準付きで複合的なマルチプロキシ監視を適用する。
Lending Clubクレジットスコアリングデータセット(融資137万、11年)に関する実証的な評価は、3つの結果を示している。
まず、生のプロキシメトリクス(PSIデルタが1.84まで、Score PSIデルタが0.92まで)は、オフライン評価設定で天然の時間的ドリフトから注入された共変量劣化を区別する。
第2に、P(Y|X) における純粋な概念ドリフトは、すべてのウィンドウにおける全てのプロキシメトリクスに対して正確にゼロデルタを生成し、構造的検証としてラベルなし監視の既約の盲点を確認する。
第3に、複合スコアは、より多くのモニタトリガー(0.583から0.833から1.000まで)をトリガーとして、モノトニックな重症度を進行させ、段階的なガバナンス応答を可能にする。
IEEE-CIS不正検出結果とのクロスドメイン比較は、検出可能/検出不能境界が両領域間で一致していることを示している。
ツールキットと評価コードはオープンソースアーティファクトとして利用可能である。
関連論文リスト
- Evidence Sufficiency Under Delayed Ground Truth: Proxy Monitoring for Risk Decision Systems [0.0]
本稿では,4次元(完全性,新鮮性,信頼性,代表性)と意思決定対応ゲートを備えたエビデンスモデルの定式化を行う。
補完的なプロキシインジケータフレームワークは、ラベルなしで十分劣化を推定する。
このフレームワークは、ガバナンスの十分な監視手段に貢献している。
論文 参考訳(メタデータ) (2026-04-17T06:30:11Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - World Model Failure Classification and Anomaly Detection for Autonomous Inspection [23.48742973289626]
教師付き障害分類と異常検出を組み合わせたハイブリッドフレームワークを提案する。
我々のアプローチは、圧縮されたビデオ入力を持つ世界モデルバックボーンを使用する。
実験では、成功、失敗、およびOODケースの区別において90%以上の精度が示されている。
論文 参考訳(メタデータ) (2026-02-18T04:41:14Z) - Detecting Object Tracking Failure via Sequential Hypothesis Testing [80.7891291021747]
ビデオにおけるリアルタイムのオンラインオブジェクト追跡は、コンピュータビジョンにおける中核的なタスクである。
本稿では,物体追跡を逐次的仮説テストとして解釈することを提案する。
本研究では,地中追跡情報と内部追跡情報の両方を活用することにより,教師なしと教師なしの両方の変種を提案する。
論文 参考訳(メタデータ) (2026-02-13T14:57:15Z) - WATCH: Adaptive Monitoring for AI Deployments via Weighted-Conformal Martingales [22.789611187514975]
非パラメトリックシーケンシャルテストのメソッド -- 特にコンフォーマルテストマーチンチャル(CTM)と任意の時間価推論 -- は、この監視タスクに有望なツールを提供する。
既存のアプローチは、限られた仮説クラスやアラーム基準の監視に限られています。」
論文 参考訳(メタデータ) (2025-05-07T17:53:47Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。