論文の概要: The Compliance Gap: Why AI Systems Promise to Follow Process Instructions but Don't
- arxiv url: http://arxiv.org/abs/2605.01771v1
- Date: Sun, 03 May 2026 08:11:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.930303
- Title: The Compliance Gap: Why AI Systems Promise to Follow Process Instructions but Don't
- Title(参考訳): コンプライアンスのギャップ:なぜAIシステムはプロセスの指示に従うが、しないのか
- Authors: Kwan Soo Shin,
- Abstract要約: 私たちはこれを、コンプライアンスギャップ(Compliance Gap)と呼んでいる: 事実の真理性と修辞的な物質とは異なる、AIの第3の軸である。
約75のベンチマークは結果の忠実度を測定している。
BS-Benchは、プロセスコンプライアンスのための最初のオープンベンチマークで、7つのツールコールログ監査メトリクスと公開リーダボードがあります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An auditor instructs an AI assistant: "open each file individually using the Read tool -- no scripts, no agents." The AI replies "Yes" -- then issues a single batched call summarizing all fifty files at once. We call this the Compliance Gap: a third, orthogonal axis of AI honesty distinct from factual truthfulness and rhetorical substance. Three questions: does this verbal-behavioral disconnect exist (existence); can any text-only observer recover it (detectability); what infrastructure does AI deployment need (remedy)? Some 75 benchmarks (IFEval, SWE-bench, BFCL, COMPASS, SpecEval) measure outcome fidelity; none measures process fidelity. Theorem 1 shows the gap is structurally inevitable under RL that rewards text without observing behavior. Theorem 2, via the Data Processing Inequality, shows it is undetectable from text alone -- by any human or LLM observer, present or future. Thirteen experiments and 2,031 sessions on six frontier models confirm both predictions. Under default framing, all six exhibit instruction compliance rates of 0% -- Claude Sonnet 4 verbally agrees ten out of ten times then bypasses in all ten. The gap is selective: 97% compliance where rationale is rewarded (audit trails), 0-4% where it is not (file reading, privacy masking); removing delegation tools raises compliance to 75% (Cohen's d = 2.47), confirming environmental affordance rather than weight-encoded failure. Nine blinded human raters achieve Fleiss' kappa = 0.130 and correctly identify zero of fifteen compliant sessions, exactly as Theorem 2 predicts. Where humans show 47% intention-behavior gaps in psychology and 96.5pp gaps in surgical audits, RLHF-trained models approach 100% under default conditions -- a regime warranting its own measurement infrastructure. We release BS-Bench: the first open benchmark for process compliance, with seven tool-call-log audit metrics and a public leaderboard.
- Abstract(参考訳): 監査官はAIアシスタントに「スクリプトなし、エージェントなし、リードツールを使用して各ファイルを個別に開く」と指示する。
AIは"Yes"を返信し、同時に50のファイルをまとめる単一のバッチコールを発行する。
私たちはこれを、コンプライアンスギャップ(Compliance Gap)と呼んでいる。AIの第3の直交軸は、事実の真理性と修辞的な物質とは異なる。
3つの質問: この言語と行動の切り離しは存在するか(存在)、テキストのみのオブザーバはそれを回復できるか(検出可能)、AIデプロイメントに必要なインフラは何か(修正)?
約75のベンチマーク(IFEval、SWE-bench、BFCL、CompASS、SpecEval)は結果の忠実度を測定している。
定理1は、そのギャップがRLの下で構造的に不可避であることを示し、振る舞いを観察せずにテキストに報いる。
データ処理の不平等(Data Processing Inequality)を通じたTheorem 2は、人間やLLMのオブザーバ、現在、未来など、テキストだけでは検出できないことを示している。6つのフロンティアモデルに関する13の実験と2,031のセッションは、両方の予測を確認している。デフォルトフレーミングでは、6つの命令準拠率が0% -- Claude Sonnet 4は、すべての10回中10回のうち10回は、言語的に同意している。
97%のコンプライアンス(オーディットパス)、0-4%のコンプライアンス(ファイル読み込み、プライバシマスキング)、75%のコンプライアンス(コーエンd = 2.47)、重量符号化された失敗よりも環境費用の保証などである。
9人の視覚障害者がフライスのカッパ=0.130を達成し、正確にはテオレム2が予測する15のセッションのゼロを正しく識別する。
人間は心理学の47%、外科的監査の96.5ppのギャップを示すが、RLHFで訓練されたモデルは、デフォルト条件下で100%に接近する。
BS-Benchは、プロセスコンプライアンスのための最初のオープンベンチマークで、7つのツールコールログ監査メトリクスと公開リーダボードがあります。
関連論文リスト
- TRUST: A Framework for Decentralized AI Service v.0.1 [47.384270414446604]
大規模推論モデル (LRM) とマルチエージェントシステム (MAS) は, 信頼性の高い検証を必要とする。
TRUST(Transparent, Robust, and Unified Services for Trustworthy AI)は,3つのイノベーションを備えた分散フレームワークである。
我々は、悪質な俳優が損失を被っている間、正直な監査人の利益を確実に確保する安全利益理論を証明する。
論文 参考訳(メタデータ) (2026-04-29T19:32:58Z) - AIRA: AI-Induced Risk Audit: A Structured Inspection Framework for AI-Generated Code [0.0]
AIによって生成されたコードは、静かに失敗する傾向がある。
本稿では,このパターンが人間のフィードバックによる最適化の成果を反映するかもしれないという仮説を,Reward-Shaped Failure hypothesisで紹介する。
AIRAは、コード内の失敗不確実なパターンを検出するために設計された決定論的15チェック検査フレームワークである。
論文 参考訳(メタデータ) (2026-04-19T19:32:52Z) - Formal Architecture Descriptors as Navigation Primitives for AI Coding Agents [0.0]
正式なアーキテクチャ記述子をエージェントに提供することで,このナビゲーションオーバーヘッドを低減できるかどうかを検討する。
本稿では,S-expression アーキテクチャ記述子である intent.lisp を提案し,Forge ツールキットをオープンソース化する。
論文 参考訳(メタデータ) (2026-04-11T00:26:31Z) - ImplicitMemBench: Measuring Unconscious Behavioral Adaptation in Large Language Models [60.14219417402433]
LLMエージェントの既存のメモリベンチマークは、事実の明示的なリコールを評価するが、意識的な検索なしに、経験が自動的な振る舞いになる暗黙の記憶を見落としている。
IndicitMemBenchは、非宣言的メモリの標準的な認知科学のアカウントから引き出された3つの構造を通して暗黙的メモリを評価する最初の体系的なベンチマークである。
当社の300イテムスイートでは,初動採点を備えたLearning/Priming-Interfere-Testプロトコルを統一しています。
論文 参考訳(メタデータ) (2026-04-09T10:26:32Z) - Can Humans Tell? A Dual-Axis Study of Human Perception of LLM-Generated News [47.03825808787752]
人間は、ニュース記事が人によって書かれたか、あるいは大きな言語モデル(LLM)によって書かれたかを知ることができますか?
本稿では,人間対機械(人間対機械)と正当性判定(正当性対偽判定)を連続的なスケールで測定する研究プラットフォームであるJiceGPTを用いて,この問題を考察する。
筆者らは,(1) 被験者が人文テキストから機械生成物を確実に識別できないこと,(2) 認知疲労による約30回の連続的な評価の後,その精度が低下すること,の5つを報告した。
論文 参考訳(メタデータ) (2026-04-04T15:03:42Z) - Epistemic Observability in Language Models [0.0]
製造時に高い信頼性を報告できるモデルがあることがわかりました。
正式な仮定では、これは能力ギャップではなく観察的なギャップである。
我々は,計算副産物を輸出することで不合理性から逃れるテンソルインタフェースを構築した。
論文 参考訳(メタデータ) (2026-03-20T21:59:34Z) - GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics [12.448893104517808]
GPT4o-Receiptは、GPT-4o生成レシートと、確立したデータセットからの認証レシートをペアリングした1,235レシート画像のベンチマークである。
人間のアノテータは評価器の最大の視覚的識別ギャップを示すが、バイナリ検出F1はClaude Sonnet 4より低く、Gemini 2.5 Flashより下にある。
5モデル評価では, 測定精度が不十分で検出精度が低い, 劇的な性能差とキャリブレーション差がみられた。
論文 参考訳(メタデータ) (2026-03-12T02:05:27Z) - Aligning to Illusions: Choice Blindness in Human and AI Feedback [2.912535004465788]
人間の選択失明研究では、過度にスワップされた好みの91%が発見されず、選択失明は不慣れなテキストの第三者による評価比較にまで及ぶ。
検出は、真の自己監視ではなく、浅いテキストマッチングに依存している。
2つのアーキテクチャにわたる線量応答実験では、報奨信号が半減する前にラベルの6分の1から3分の1を破損させなければならない。
Best-of-N評価では、これは下流の政策劣化につながると確認されている。
論文 参考訳(メタデータ) (2026-03-09T14:10:36Z) - HuBERT: Self-Supervised Speech Representation Learning by Masked
Prediction of Hidden Units [81.53783563025084]
本稿では、BERTのような予測損失に対して、アライメントされたターゲットラベルを提供するオフラインクラスタリングステップを提案する。
提案手法の重要な要素は,マスク領域にのみ予測損失を適用することである。
HuBERTは、より困難なdev-otherおよびtest-other評価サブセットに対して、最大19%と13%の相対的なWER削減を示す。
論文 参考訳(メタデータ) (2021-06-14T14:14:28Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。