論文の概要: Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments
- arxiv url: http://arxiv.org/abs/2506.23706v1
- Date: Mon, 30 Jun 2025 10:29:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:54.019
- Title: Attestable Audits: Verifiable AI Safety Benchmarks Using Trusted Execution Environments
- Title(参考訳): Attestable Audits:信頼された実行環境を使用した検証可能なAI安全性ベンチマーク
- Authors: Christoph Schnabl, Daniel Hugenroth, Bill Marino, Alastair R. Beresford,
- Abstract要約: 本稿では,Trusted Execution Environments内で動作するAttestable Auditsを提案する。
私たちの仕事は、モデルプロバイダと監査官がお互いを信頼していない場合でも、機密データを保護します。
- 参考スコア(独自算出の注目度): 7.462223660305825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks are important measures to evaluate safety and compliance of AI models at scale. However, they typically do not offer verifiable results and lack confidentiality for model IP and benchmark datasets. We propose Attestable Audits, which run inside Trusted Execution Environments and enable users to verify interaction with a compliant AI model. Our work protects sensitive data even when model provider and auditor do not trust each other. This addresses verification challenges raised in recent AI governance frameworks. We build a prototype demonstrating feasibility on typical audit benchmarks against Llama-3.1.
- Abstract(参考訳): ベンチマークは、大規模なAIモデルの安全性とコンプライアンスを評価するための重要な手段である。
しかし、一般的に検証可能な結果を提供しておらず、モデルIPやベンチマークデータセットの機密性に欠ける。
本稿では,Trusted Execution Environments内で動作するAttestable Auditsを提案する。
私たちの仕事は、モデルプロバイダと監査官がお互いを信頼していない場合でも、機密データを保護します。
これは、最近のAIガバナンスフレームワークで提起された課題に対処する。
Llama-3.1に対する典型的な監査ベンチマークの実現可能性を示すプロトタイプを構築した。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Demographic Benchmarking: Bridging Socio-Technical Gaps in Bias Detection [0.0]
本稿では、ITTACA AI監査プラットフォームが、AIレコメンデータシステムの監査において、階層的ベンチマークにどのように取り組むかを説明する。
フレームワークは、単に測定するだけでなく、特定のパフォーマンス指標の許容範囲を確立することができるので、監査役として役立ちます。
我々のアプローチは、社会デマトグラフィーの洞察を直接AIシステムに統合し、バイアスを減らし、全体的なパフォーマンスを改善する。
論文 参考訳(メタデータ) (2025-01-27T12:14:49Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - OATH: Efficient and Flexible Zero-Knowledge Proofs of End-to-End ML Fairness [13.986886689256128]
Zero-Knowledge Proofs of Fairnessは、サービスプロバイダが彼らのモデルが多様な人口動態を公平に提供できることを検証することによって、フェアネスの非準拠に対処する。
OATHはクライアント対面通信とオフライン監査フェーズを効果的にデプロイできるフレームワークである。
OATHは、ニューラルネットワークZKPoFの以前の作業よりも、ランタイムを1343倍改善し、はるかに大きなモデルにスケールアップする。
論文 参考訳(メタデータ) (2024-09-17T16:00:35Z) - BELLS: A Framework Towards Future Proof Benchmarks for the Evaluation of LLM Safeguards [43.86118338226387]
LLMセーフガード評価ベンチマーク(BELLS)について紹介する。
BELLSは構造化されたテストのコレクションで、確立された障害テスト、新しい障害テスト、次世代アーキテクチャテストの3つのカテゴリに分けられる。
私たちは、データセットのインタラクティブな可視化とともに、MACHIAVELLI環境を使用して、最初の次世代アーキテクチャテストを実装し、共有します。
論文 参考訳(メタデータ) (2024-06-03T14:32:30Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - TRUST-LAPSE: An Explainable and Actionable Mistrust Scoring Framework
for Model Monitoring [4.262769931159288]
連続モデル監視のための"ミストラスト"スコアリングフレームワークであるTRUST-LAPSEを提案する。
我々は,各入力サンプルのモデル予測の信頼性を,潜時空間埋め込みのシーケンスを用いて評価する。
AUROCs 84.1 (vision), 73.9 (audio), 77.1 (clinical EEGs)
論文 参考訳(メタデータ) (2022-07-22T18:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。