論文の概要: Position: Behavioural Assurance Cannot Verify the Safety Claims Governance Now Demands
- arxiv url: http://arxiv.org/abs/2605.15164v1
- Date: Thu, 14 May 2026 17:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.001285
- Title: Position: Behavioural Assurance Cannot Verify the Safety Claims Governance Now Demands
- Title(参考訳): ポジション:行動保証は、現在要求されている安全責任を検証できない
- Authors: Pratinav Seth, Vinay Kumar Sankarapu,
- Abstract要約: 我々は、慎重に設計しても、行動保証は検証できないという安全主張を遂行するよう求められていると論じている。
我々は,この構造ミスマッチを監査ギャップ,要求と達成可能な検証アクセスのばらつきとして形式化し,脆弱な保証の概念を導入する。
本稿では,法的文書における行動証拠の重み付けと,機械的証拠クラスによる自発的な事前配備アクセスの延長という技術的転換を提案する。
- 参考スコア(独自算出の注目度): 4.125187280299246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This position paper argues that behavioural assurance, even when carefully designed, is being asked to carry safety claims it cannot verify. AI governance frameworks enacted between 2019 and early 2026 require reviewable evidence of properties such as the absence of hidden objectives, resistance to loss-of-control precursors, and bounded catastrophic capability; current assurance methodologies (primarily behavioural evaluations and red-teaming) are epistemically limited to observable model outputs and cannot verify the latent representations or long-horizon agentic behaviours these frameworks presume to regulate. We formalize this structural mismatch as the audit gap, the divergence between required and achievable verification access, and introduce the concept of fragile assurance to describe cases where the evidential structure does not support the asserted safety claim. Through an analysis of a 21-instrument inventory, we identify an incentive gradient where geopolitical and industrial pressures systematically reward surface-level behavioral proxies over deep structural verification. Finally, we propose a technical pivot: bounding the weight of behavioral evidence in legal text and extending voluntary pre-deployment access with mechanistic-evidence classes, specifically linear probes, activation patching, and before/after-training comparisons.
- Abstract(参考訳): このポジションペーパーは、たとえ慎重に設計されたとしても、行動保証は検証できないという安全主張を運ぶよう求められている、と論じている。
2019年から2026年初頭に制定されたAIガバナンスフレームワークは、隠された目的の欠如、制御不能の前駆者に対する抵抗、境界破滅的な能力といった、レビュー可能な特性の証拠を必要とする。
我々は,この構造ミスマッチを監査ギャップ,要求と達成可能な検証アクセスのばらつきとして定式化し,明細構造が主張された安全要求をサポートしない場合を記述するための脆弱な保証の概念を導入する。
21-instrumentインベントリの分析を通じて,地政学的および産業的圧力が深い構造的検証よりも表面レベルの行動プロキシを体系的に報酬するインセンティブ勾配を同定する。
最後に、法文における行動証拠の重み付けと、機械的証拠クラス(特に線形プローブ、アクティベーションパッチ、前/後比較)による自発的な事前デプロイアクセスの延長を提案する。
関連論文リスト
- PolicyBank: Evolving Policy Understanding for LLM Agents [51.86716874651299]
PolicyBankは構造化されたツールレベルの政策洞察を維持し、それらを反復的に洗練する。
PolicyBankは、人間の神託に対するギャップの最大82%を閉じている。
論文 参考訳(メタデータ) (2026-04-16T20:29:30Z) - Authority-Level Priors: An Under-Specified Constraint in Hierarchical Predictive Processing [0.0]
オーソリティ・レベル優先(英: Authority-Level Priors、ALP)は、アイデンティティレベルの仮説の規制が許容できるサブセットを定義するメタ構造制約である。
ALPは、追加の表現状態や精度よりも高優先度であり、規制制御に許容される仮説を制約している。
計算形式化は、認可された仮説によって生成されるポリシーに対するポリシー最適化を制限する。
論文 参考訳(メタデータ) (2026-03-19T13:27:47Z) - GAVEL: Towards rule-based safety through activation monitoring [2.337566423505956]
大規模言語モデル(LLM)は、有害な行動を検出し予防するために、アクティベーションベースの監視とペアになってきています。
既存のアクティベーション安全性アプローチ、幅広い誤用データセットのトレーニング、精度の低下、柔軟性の制限、解釈可能性の欠如。
本稿では,サイバーセキュリティにおけるルール共有プラクティスにインスパイアされた,ルールベースのアクティベーション安全という新たなパラダイムを紹介する。
論文 参考訳(メタデータ) (2026-01-27T16:31:39Z) - Fantastic Reasoning Behaviors and Where to Find Them: Unsupervised Discovery of the Reasoning Process [66.38541693477181]
本稿では, アクティベーション空間の方向として, 異なる推論挙動を符号化する, 推論ベクトルの発見のための教師なしフレームワークを提案する。
思考の連鎖トレースを文レベルの「ステップ」にセグメント化することで、リフレクションやバックトラックのような解釈可能な振る舞いに対応する歪んだ特徴を明らかにする。
本研究では,SAEデコーダ空間における信頼性関連ベクトルを同定し,応答信頼性を制御する能力を示す。
論文 参考訳(メタデータ) (2025-12-30T05:09:11Z) - The Loss of Control Playbook: Degrees, Dynamics, and Preparedness [39.39076397908963]
本報告では,新たな分類と準備の枠組みを開発することにより,AIシステムにおけるロス・オブ・コントロール(Los of Control, LoC)の実用的な定義が欠如していることに対処する。
そこで本研究では,重度と持続性の指標に基づいて,偏差,境界LoC,Strict LoCを区別したLoC分類法を提案する。
我々は,社会的脆弱性が到達した場合に,準備の維持と LoC 結果の発生防止を計画した。
論文 参考訳(メタデータ) (2025-11-19T20:10:39Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z) - A PRISMA-Driven Bibliometric Analysis of the Scientific Literature on Assurance Case Patterns [7.930875992631788]
保証ケースはシステム障害を防ぐために使用できる。
それらは構造化された議論であり、様々な安全クリティカルなシステムの要求を議論し、中継することができる。
論文 参考訳(メタデータ) (2024-07-06T05:00:49Z) - No Need to Know Physics: Resilience of Process-based Model-free Anomaly
Detection for Industrial Control Systems [95.54151664013011]
本稿では,システムの物理的特性に反する逆スプーフ信号を生成するための新しい枠組みを提案する。
トップセキュリティカンファレンスで公表された4つの異常検知器を分析した。
論文 参考訳(メタデータ) (2020-12-07T11:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。