論文の概要: NeurIPS Should Require Reproducibility Standards for Frontier AI Safety Claims
- arxiv url: http://arxiv.org/abs/2605.08192v1
- Date: Tue, 05 May 2026 17:25:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.447381
- Title: NeurIPS Should Require Reproducibility Standards for Frontier AI Safety Claims
- Title(参考訳): NeurIPSは、フロンティアAI安全宣言の再現性基準を必要とするべき
- Authors: Varad Vishwarupe, Nigel Shadbolt, Marina Jirotka, Ivan Flechais,
- Abstract要約: AIの安全性におけるその後の主張のほとんどは、再現性が低いことが多い。
NeurIPSはそのような主張をする書類の基準を必要とする。
本稿では,公益・規制・限定的開示を区別する三層開示フレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.663456969895462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Frontier AI safety claims - published assertions that a highly capable general-purpose model is below a threshold of concern, adequately mitigated, or suitable for release - increasingly shape model deployment, governance, and public trust. Yet the artefacts needed to evaluate them are routinely withheld, producing an evidential inversion: the most consequential claims in AI safety are often the least reproducible. This position paper argues that NeurIPS should require reproducibility standards for papers making such claims, treating non-reproducibility not as a transparency preference but as an evaluation-methodology failure. The 2026 International AI Safety Report [Bengio et al., 2026] concludes that reliable pre-deployment safety testing has become harder to conduct and that models now distinguish test from deployment contexts; the 2025 Foundation Model Transparency Index [Wan et al., 2025] reports a sector-average transparency score of 40/100 with no major developer adequately disclosing train-test overlap; contemporaneous measurement-theory work shows that attack-success-rate comparisons across systems are often founded on low-validity measurements [Chouldechova et al., 2025]. We propose a three-tier disclosure framework, distinguishing public, controlled, and claim-restricted disclosure, paired with a mandatory claim inventory, scope statements, and a phased implementation path with graduated sanctions. The framework treats secrecy and openness as endpoints of a spectrum, with controlled review (via a federated colloquium of qualified secure-review hosts) covering claims whose artefacts cannot be released publicly, and right-scaling claims whose artefacts cannot be reviewed even confidentially. The standard the community applies to its most consequential claims should be at least as high as the standard it applies to its least.
- Abstract(参考訳): Frontier AIの安全性の主張 - 高度な汎用モデルは懸念のしきい値を下回り、適切に緩和され、リリースに適したものである、という主張を公開した。
しかし、それらを評価するのに必要な人工物は日常的に保持されず、明らかな逆転を生み出します。
このポジションペーパーでは、NeurIPSはそのような主張を行う論文の再現性基準を必要とし、非再現性は透明性の優先ではなく、評価・方法論の失敗として扱うべきであると論じている。
2026年の国際AI安全レポート(Bengio et al , 2026)では、信頼性の高いデプロイ前の安全性テストの実施が難しくなり、モデルがデプロイメントコンテキストとテストの区別が難しいと結論付けている。 2025 Foundation Model Transparency Index [Wan et al , 2025]は、主要な開発者による平均透明性スコアが40/100で、列車テストの重複が適切に開示されていないことを報告している。
本稿では,公益・規制・限定的開示を識別し,義務的クレームの在庫,スコープステートメント,段階的実施パスと段階的制裁とを組み合わせた3層開示フレームワークを提案する。
このフレームワークは、秘密性とオープン性をスペクトルの終端として扱い、規制されたレビュー(資格付きセキュアレビューホストの連合による)は、人工物が公に公開できないクレームと、人工物が極秘にレビューできない右スケーリングクレームをカバーしている。
コミュニティが最も連続的な主張に適用される標準は、少なくともその標準に適用される標準と同じくらい高くなければならない。
関連論文リスト
- Bayesian Modeling for Uncertainty Management in Financial Risk Forecasting and Compliance [0.0]
我々は,市場ボラティリティ予測,不正検出,コンプライアンス監視におけるリスクの取り扱いを継続的に促進する統合的アプローチを開発する。
我々は,2000年から2019年までのトレーニング期間,2020年から2024年までのアウト・オブ・サンプルテスト期間を用いて,毎日のS&P500リターンにおける95%バリュー・アット・リスク(VaR)予測の性能を評価した。
提案した割引係数DLMモデルは,クラスタ化違反の証拠とともに,わずかにリベラルなVaR推定を導出する。
論文 参考訳(メタデータ) (2025-12-06T23:00:19Z) - Prudential Reliability of Large Language Models in Reinsurance: Governance, Assurance, and Capital Efficiency [0.0]
本稿では,大規模言語モデル (LLM) の信頼性を再現性で評価する手法を開発する。
ガバナンス、データ系統、保証、レジリエンス、規制アライメントという5つの柱アーキテクチャは、Solvency II, SR 11-7からの監督的な期待を伝達する。
このフレームワークはReinsurance AI Reliability and Assurance Benchmark (RAIRAB)を通じて実装されている。
論文 参考訳(メタデータ) (2025-11-11T10:33:54Z) - Judging by the Rules: Compliance-Aligned Framework for Modern Slavery Statement Monitoring [24.13989765643719]
現代の奴隷制度は世界中で何百万人もの人々に影響を与えており、現代の奴隷制度法のような規制の枠組みでは、企業が詳細な開示を公表する必要がある。
これらのステートメントは曖昧で矛盾することが多く、手作業によるレビューの時間とスケールが難しくなる。
専門家の監視を維持しつつルールレベルのコンプライアンス検証にAIを活用する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-11T03:41:44Z) - Zero-shot reasoning for simulating scholarly peer-review [0.0]
本稿では、AI生成ピアレビューレポートを評価するための、最初の安定的でエビデンスに基づく標準を提供する決定論的シミュレーションフレームワークについて検討する。
第一に、このシステムは校正された編集判断をシミュレートすることができ、「改訂」決定が一貫して多数決結果を形成する。
第二に、手続きの整合性を揺るぎないまま維持し、安定した29%の証明の遵守率を強制する。
論文 参考訳(メタデータ) (2025-10-02T13:59:14Z) - Confidential Guardian: Cryptographically Prohibiting the Abuse of Model Abstention [65.47632669243657]
不正直な機関は、不確実性の観点からサービスを差別または不正に否定する機構を利用することができる。
我々は、ミラージュと呼ばれる不確実性誘導攻撃を導入することで、この脅威の実践性を実証する。
本研究では,参照データセット上のキャリブレーションメトリクスを分析し,人工的に抑制された信頼度を検出するフレームワークであるConfidential Guardianを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:47:50Z) - SConU: Selective Conformal Uncertainty in Large Language Models [59.25881667640868]
SconU(Selective Conformal Uncertainity)と呼ばれる新しいアプローチを提案する。
我々は,特定の管理可能なリスクレベルで設定されたキャリブレーションの不確実性分布から,与えられたサンプルが逸脱するかどうかを決定するのに役立つ2つの共形p値を開発する。
我々のアプローチは、単一ドメインと学際的コンテキストの両方にわたる誤発見率の厳密な管理を促進するだけでなく、予測の効率を高める。
論文 参考訳(メタデータ) (2025-04-19T03:01:45Z) - AI Companies Should Report Pre- and Post-Mitigation Safety Evaluations [5.984437476321095]
フロンティアAI企業は、事前および後安全評価の両方を報告すべきである。
両段階におけるモデルの評価は、政策立案者に、配備、アクセス、安全基準を規制するための重要な証拠を提供する。
論文 参考訳(メタデータ) (2025-03-17T17:56:43Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - From Mean to Extreme: Formal Differential Privacy Bounds on the Success of Real-World Data Reconstruction Attacks [54.25638567385662]
機械学習における微分プライバシーは、しばしばメンバーシップ推論に対する保証として解釈される。
DP予算を定量的な保護に翻訳することで、データ再構築の脅威を悪化させることは、依然として困難な課題である。
本稿では、実証された"ゼロスクラッチ"攻撃のメカニズムに合わせた、最初の公式なプライバシー境界を導出することで、臨界ギャップを埋める。
論文 参考訳(メタデータ) (2024-02-20T09:52:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。