論文の概要: Expanding External Access To Frontier AI Models For Dangerous Capability Evaluations
- arxiv url: http://arxiv.org/abs/2601.11916v1
- Date: Sat, 17 Jan 2026 05:33:04 GMT
- ステータス: 情報取得中
- システム内更新日: 2026-01-21 12:44:53.746158
- Title: Expanding External Access To Frontier AI Models For Dangerous Capability Evaluations
- Title(参考訳): エッジAIモデルへの外部アクセスを拡大して、危険な能力評価が可能に
- Authors: Jacob Charnock, Alejandro Tlaie, Kyle O'Brien, Stephen Casper, Aidan Homewood,
- Abstract要約: EUの汎用AIコード(General-Purpose AI Code of Practice)は、"適切なアクセス"を要求するが、実際には何を意味するのかは明記していない。
異なるタイプの評価者アクセスのレベルを記述するための一般的なフレームワークはありません。
本稿では,危険度評価のためのアクセス手法の分類法を提案する。
- 参考スコア(独自算出の注目度): 41.72971769197687
- License:
- Abstract: Frontier AI companies increasingly rely on external evaluations to assess risks from dangerous capabilities before deployment. However, external evaluators often receive limited model access, limited information, and little time, which can reduce evaluation rigour and confidence. The EU General-Purpose AI Code of Practice calls for "appropriate access", but does not specify what this means in practice. Furthermore, there is no common framework for describing different types and levels of evaluator access. To address this gap, we propose a taxonomy of access methods for dangerous capability evaluations. We disentangle three aspects of access: model access, model information, and evaluation timeframe. For each aspect, we review benefits and risks, including how expanding access can reduce false negatives and improve stakeholder trust, but can also increase security and capacity challenges. We argue that these limitations can likely be mitigated through technical means and safeguards used in other industries. Based on the taxonomy, we propose three descriptive access levels: AL1 (black-box model access and minimal information), AL2 (grey-box model access and substantial information), and AL3 (white-box model access and comprehensive information), to support clearer communication between evaluators, frontier AI companies, and policymakers. We believe these levels correspond to the different standards for appropriate access defined in the EU Code of Practice, though these standards may change over time.
- Abstract(参考訳): 最前線のAI企業は、デプロイ前に危険な機能からリスクを評価するために、ますます外部評価に依存している。
しかし、外部評価器は限られたモデルアクセス、限られた情報、少ない時間しか受信できないため、評価の厳密さや信頼性が低下する可能性がある。
EUの汎用AIコード(General-Purpose AI Code of Practice)は、"適切なアクセス"を要求するが、実際には何を意味するのかは明記していない。
さらに、異なるタイプの評価者アクセスのレベルを記述するための一般的なフレームワークはありません。
このギャップに対処するために,危険度評価のためのアクセス手法の分類法を提案する。
私たちは、モデルアクセス、モデル情報、評価タイムフレームという、アクセスの3つの側面を切り離しています。
それぞれの面において、アクセス拡大が誤ったネガティブを減らし、ステークホルダーの信頼を向上するだけでなく、セキュリティやキャパシティの課題も大きくする、というメリットやリスクをレビューします。
これらの制限は、他の業界で使用されている技術的手段や安全によって緩和される可能性がある、と私たちは主張する。
この分類に基づいて、評価者、フロンティアAI企業、政策立案者間のより明確なコミュニケーションを支援するために、AL1(ブラックボックスモデルアクセスと最小限の情報)、AL2(グレーボックスモデルアクセスと実質的な情報)、AL3(ホワイトボックスモデルアクセスと包括的情報)の3つの記述的アクセスレベルを提案する。
これらのレベルは、EUコード・オブ・プラクティスで定義された適切なアクセスのための異なる標準に対応していると考えています。
関連論文リスト
- Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies [57.521647436515785]
私たちはフロンティアAIの監査を、フロンティアAI開発者の安全とセキュリティに関する主張の厳格な第三者による検証として定義しています。
本稿では,AI保証レベル(AAL-1からAAL-4)について紹介する。
論文 参考訳(メタデータ) (2026-01-16T18:44:09Z) - A Systematic Survey of Model Extraction Attacks and Defenses: State-of-the-Art and Perspectives [65.3369988566853]
近年の研究では、敵が対象モデルの機能を複製できることが示されている。
モデル抽出攻撃は知的財産権、プライバシー、システムのセキュリティに脅威をもたらす。
本稿では,攻撃機構,防衛手法,計算環境に応じてMEAを分類する新しい分類法を提案する。
論文 参考訳(メタデータ) (2025-08-20T19:49:59Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - AI Safety Frameworks Should Include Procedures for Model Access Decisions [0.0]
ダウンストリームのユースケース、メリット、リスクは、モデルにどのようなアクセスが提供されるかに大きく依存します。
既存の安全フレームワークとAI開発者利用ポリシーは、与えられたモデルによって引き起こされるリスクが、与えられたオーディエンスに提供するアクセスのレベルに依存することを認識している。
本稿では、モデルアクセスに関する決定を行うための透明な手順を概説することにより、フロンティアAI企業が既存の安全フレームワークの上に構築することを提案する。
論文 参考訳(メタデータ) (2024-11-15T19:44:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。