論文の概要: Auditable Decision Models with Learned Abstention and Real-Time Steering
- arxiv url: http://arxiv.org/abs/2605.27768v1
- Date: Tue, 26 May 2026 23:37:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.605913
- Title: Auditable Decision Models with Learned Abstention and Real-Time Steering
- Title(参考訳): 学習的留意とリアルタイムステアリングによる聴覚的決定モデル
- Authors: Sankaranarayanan Palamadai Chandrasekaran,
- Abstract要約: 生産AIシステムは、不完全、矛盾、あるいは不十分な証拠で運用されることが多い。
我々は,不確実性が明確でなければならないAIシステムの運用上の決定制御について検討する。
本稿では,YES,NO,TBDを予測する境界決定制御モデルであるEvaluatorDPTを提案する。
- 参考スコア(独自算出の注目度): 6.287457666346811
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production AI systems often operate with incomplete, conflicting, or insufficient evidence. Forced classifiers collapse such cases into action labels, while generative systems can produce outputs that are difficult to interpret as auditable execution decisions. We study operational decision control for AI systems, where uncertainty must be explicitly routable, policy-governed, and auditable rather than hidden inside forced predictions or free-form generation. We present EvaluatorDPT, a bounded decision-control model that predicts YES, NO, or TBD, where TBD is learned as a deferral outcome rather than added only as a post-hoc confidence rule. The model uses a transformer encoder with a primary bounded-decision head and structured auxiliary channels for values and emotions/sentiments. The interface is domain-agnostic in form: a deployment domain supplies evidence and policy thresholds, while the model emits a bounded distribution that can be controlled at inference time through recorded operating thresholds and, when validated, auxiliary semantic signals. For the evaluated model version, we report decision performance on held-out validation and test splits; auxiliary emotion metrics are omitted because the emotion head is disabled for this evaluation. On the held-out test split (n=44,597), the model achieves Accuracy = 0.8260 and Macro F1 = 0.8252, with per-class F1 of 0.8314 (YES), 0.8486 (NO), and 0.7956 (TBD). The evaluation record also includes calibration evidence (ECE = 0.0338 on validation), threshold-sweep outputs, multi-seed stability checks, confusion matrices, and reproducibility commands. Our main contribution is a bounded execution interface in which deferral is learned, inference-time routing remains inspectable, auxiliary signals provide a path to auditable behavior control, and evaluation evidence supports external review.
- Abstract(参考訳): 生産AIシステムは、不完全、矛盾、あるいは不十分な証拠で運用されることが多い。
強制分類器はこれらのケースをアクションラベルに分解し、生成システムは監査可能な実行決定と解釈するのが難しい出力を生成する。
そこでは,不確実性は強制予測や自由形式生成の内側に隠れるのではなく,明確に不確実性を持ち,政策管理され,監査可能でなければならない。
本稿では,YES,NO,TBDを予測する境界決定制御モデルであるEvaluatorDPTを提案する。
このモデルは、一次境界決定ヘッドを持つトランスフォーマーエンコーダと、値と感情/感覚のための構造化補助チャネルを使用する。
配置ドメインはエビデンスとポリシーしきい値を提供し、一方モデルは、記録された操作しきい値と、検証された補助的なセマンティック信号を介して推論時間で制御できる有界分布を出力する。
評価されたモデルバージョンでは、保留検証とテスト分割の決定性能を報告し、この評価のために感情ヘッドが無効であるため、補助的な感情指標が省略される。
ホールドアウト試験分割(n=44,597)では精度が0.8260、マクロF1 = 0.8252となり、クラスごとのF1は0.8314(YES)、0.8486(NO)、0.7956(TBD)となる。
評価記録には、校正証拠(ECE = 0.0338 バリデーション)、しきい値スイープ出力、マルチシード安定性チェック、混乱行列、再現性コマンドが含まれる。
我々の主な貢献は、遅延を学習し、推論時ルーティングを検査し、補助信号が監査可能な動作制御の経路を提供し、評価エビデンスが外部のレビューをサポートする境界実行インタフェースである。
関連論文リスト
- Making AI-Assisted Grant Evaluation Auditable without Exposing the Model [0.0]
本稿では,遠隔検定による要求の整合を支援するTEEアーキテクチャを提案する。
このアーキテクチャにより、外部検証者はどのモデル、ルーブリック、プロンプトテンプレート、入力表現が使われたかをチェックすることができる。
我々は、秘密のAI推論、証明可能なAI監査、ゼロ知識機械学習、アルゴリズムのアカウンタビリティ、AI支援ピアレビューに対する設計を位置付ける。
論文 参考訳(メタデータ) (2026-04-28T04:10:04Z) - Label-Free Detection of Governance Evidence Degradation in Risk Decision Systems [0.0]
不正検出・信用スコアリングにおけるリスク決定システムは、構造ラベルが存在しない状態で運用される。
既存のフレームワークは、ドリフト検出とガバナンスエビデンス評価と運用対応を統合していません。
本稿では,ガバナンスドリフトツールキットのラベルフリーガバナンス監視拡張について述べる。
論文 参考訳(メタデータ) (2026-04-20T05:46:15Z) - Agentic Control in Variational Language Models [0.0]
本研究では,変分言語モデルが,内的根拠に基づく最小かつ測定可能なエージェント制御をサポートできるかどうかを考察する。
本モデルでは, 局所変動隠蔽計算(EVE), ホメオスタティック潜伏制御器, 構造的に認識されたチェックポイント保持と, 保持モデル上で動作する校正不確実性認識コントローラを組み合わせる。
論文 参考訳(メタデータ) (2026-04-14T09:47:53Z) - Taming CATS: Controllable Automatic Text Simplification through Instruction Fine-Tuning with Control Tokens [2.4713807020542773]
自動テキストの簡易化における制御性は、データと評価によって著しく制限される。
本稿では,個別制御トークンを用いた命令微調整に基づくドメインに依存しないCATSフレームワークを提案する。
標準の単純化と類似度指標は制御の計測に不十分であることを示す。
論文 参考訳(メタデータ) (2026-04-02T08:44:17Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - interwhen: A Generalizable Framework for Verifiable Reasoning with Test-time Monitors [47.363850513075356]
実験時間検証フレームワークであるInterwhenを提案し, 与えられた検証結果に対して, 推論モデルの出力が有効であることを保証する。
検証された推論は、物理的な世界にエージェントを配置するといった高度なシナリオにおいて重要な目標である。
論文 参考訳(メタデータ) (2026-02-05T08:35:01Z) - Learning Robust Output Control Barrier Functions from Safe Expert Demonstrations [50.37808220291108]
本稿では,専門家によるデモンストレーションの部分的な観察から,安全な出力フィードバック制御法を考察する。
まず,安全性を保証する手段として,ロバスト出力制御バリア関数(ROCBF)を提案する。
次に、安全なシステム動作を示す専門家による実証からROCBFを学習するための最適化問題を定式化する。
論文 参考訳(メタデータ) (2021-11-18T23:21:00Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Auditing AI models for Verified Deployment under Semantic Specifications [65.12401653917838]
AuditAIは、解釈可能な形式検証とスケーラビリティのギャップを埋める。
AuditAIは、画素空間の摂動のみを用いた検証の限界に対処しながら、検証と認定トレーニングのための制御されたバリエーションを得られるかを示す。
論文 参考訳(メタデータ) (2021-09-25T22:53:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。