論文の概要: Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI
- arxiv url: http://arxiv.org/abs/2604.20972v1
- Date: Wed, 22 Apr 2026 18:05:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.119229
- Title: Escaping the Agreement Trap: Defensibility Signals for Evaluating Rule-Governed AI
- Title(参考訳): 合意のトラップを逃れる - ルールを守ったAIを評価するための防御信号
- Authors: Michael O'Herlihy, Rosa Català,
- Abstract要約: 我々は、政策的正当性として評価を定式化し、Defensibility Index(DI)とAmbiguity Index(AI)を導入する。
フレームワークを複数のコミュニティで193,000以上のRedditモデレーション決定と評価コホートで検証する。
- 参考スコア(独自算出の注目度): 0.6138671548064355
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content moderation systems are typically evaluated by measuring agreement with human labels. In rule-governed environments this assumption fails: multiple decisions may be logically consistent with the governing policy, and agreement metrics penalize valid decisions while mischaracterizing ambiguity as error - a failure mode we term the Agreement Trap. We formalize evaluation as policy-grounded correctness and introduce the Defensibility Index (DI) and Ambiguity Index (AI). To estimate reasoning stability without additional audit passes, we introduce the Probabilistic Defensibility Signal (PDS), derived from audit-model token logprobs. We harness LLM reasoning traces as a governance signal rather than a classification output by deploying the audit model not to decide whether content violates policy, but to verify whether a proposed decision is logically derivable from the governing rule hierarchy. We validate the framework on 193,000+ Reddit moderation decisions across multiple communities and evaluation cohorts, finding a 33-46.6 percentage-point gap between agreement-based and policy-grounded metrics, with 79.8-80.6% of the model's false negatives corresponding to policy-grounded decisions rather than true errors. We further show that measured ambiguity is driven by rule specificity: auditing 37,286 identical decisions under three tiers of the same community rules reduces AI by 10.8 pp while DI remains stable. Repeated-sampling analysis attributes PDS variance primarily to governance ambiguity rather than decoding noise. A Governance Gate built on these signals achieves 78.6% automation coverage with 64.9% risk reduction. Together, these results show that evaluation in rule-governed environments should shift from agreement with historical labels to reasoning-grounded validity under explicit rules.
- Abstract(参考訳): コンテンツモデレーションシステムは通常、人間のラベルとの一致を測定することによって評価される。
複数の決定は、ガバナンスポリシーと論理的に一致しているかもしれないし、合意のメトリクスは、有効な決定を罰し、曖昧さをエラーと誤認する。
我々は,評価を政策的正当性として定式化し,Defensibility Index(DI)とAmbiguity Index(AI)を導入する。
追加の監査パスを使わずに推論安定性を推定するために,監査モデルトークンログプロブから派生した確率的防御信号(PDS)を導入する。
そこで我々は, LLM推論トレースを分類出力ではなくガバナンス信号として利用し, コンテンツがポリシーに違反しているかどうかを判断する監査モデルを配置し, ルール階層から論理的に決定が導出可能かどうかを検証する。
我々は、複数のコミュニティと評価コホートにまたがる193,000以上のRedditのモデレーション決定に関するフレームワークを検証し、合意に基づくメトリクスと方針に基づくメトリクスの33-46.6のパーセンテージの差を発見し、79.8-80.6%が真のエラーではなく、方針に基づく決定に対応する偽陰性であることを示した。
さらに、測定されたあいまいさはルールの特異性によって引き起こされることを示す。同じコミュニティルールの3つの階層で37,286の同一決定を監査すると、DIが安定している間、AIは10.8pp減少する。
繰り返しサンプリング分析は、PDSの分散は主にノイズを復号するよりも、ガバナンスの曖昧さに起因している。
これらの信号に基づいて構築されたガバナンスゲートは、自動化カバレッジが78.6%、リスクが64.9%減少する。
これらの結果から, ルール管理環境における評価は, 歴史的ラベルとの合意から, 明確なルールの下での推論的妥当性へ移行すべきであることが示唆された。
関連論文リスト
- PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - The Confidence Gate Theorem: When Should Ranked Decision Systems Abstain? [0.0]
ランク付けされた決定システムは、いつランク付けされたアウトプットに介入するか、いつ停止するかを判断しなければならない。
信頼に基づく棄権が意思決定の質を単調に改善し、いつ失敗するかを考察する。
論文 参考訳(メタデータ) (2026-03-10T17:44:10Z) - Admissibility Alignment [0.0]
本稿では,不確実性を考慮した意思決定のための新しい制御プレーンシステムアーキテクチャMAP-AIを提案する。
モンテカルロによる結果分布の推定と、許容性制御された政策選択を通じてアライメントを実施する。
本研究では,アライメント評価を意思決定自体に統合し,適応性制御された行動選択機構を実現する方法を示す。
論文 参考訳(メタデータ) (2026-01-05T05:58:19Z) - Policy-Aware Generative AI for Safe, Auditable Data Access Governance [0.0]
本稿では,大規模言語モデル(LLM)を用いて,原データではなく,記述されたポリシーやメタデータに対して自然言語要求を解釈するポリシー対応コントローラを提案する。
Google Gemini2.0 Flashで実装されたこのシステムは、6段階の推論フレームワークを実行する。
論文 参考訳(メタデータ) (2025-10-27T16:10:55Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Identification of Subgroups With Similar Benefits in Off-Policy Policy
Evaluation [60.71312668265873]
我々は,パーソナライズの必要性と自信ある予測とのバランスをとる方法を開発した。
本手法は不均一な治療効果の正確な予測に有効であることを示す。
論文 参考訳(メタデータ) (2021-11-28T23:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。