論文の概要: Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods
- arxiv url: http://arxiv.org/abs/2505.05541v1
- Date: Thu, 08 May 2025 16:55:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-12 20:40:10.026906
- Title: Safety by Measurement: A Systematic Literature Review of AI Safety Evaluation Methods
- Title(参考訳): 測定による安全性:AI安全評価手法の体系的文献レビュー
- Authors: Markov Grey, Charbel-Raphaël Segerie,
- Abstract要約: この文献レビューは、急速に進化するAI安全性評価の分野を集約する。
それは、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという、3つの次元に関する体系的な分類法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As frontier AI systems advance toward transformative capabilities, we need a parallel transformation in how we measure and evaluate these systems to ensure safety and inform governance. While benchmarks have been the primary method for estimating model capabilities, they often fail to establish true upper bounds or predict deployment behavior. This literature review consolidates the rapidly evolving field of AI safety evaluations, proposing a systematic taxonomy around three dimensions: what properties we measure, how we measure them, and how these measurements integrate into frameworks. We show how evaluations go beyond benchmarks by measuring what models can do when pushed to the limit (capabilities), the behavioral tendencies exhibited by default (propensities), and whether our safety measures remain effective even when faced with subversive adversarial AI (control). These properties are measured through behavioral techniques like scaffolding, red teaming and supervised fine-tuning, alongside internal techniques such as representation analysis and mechanistic interpretability. We provide deeper explanations of some safety-critical capabilities like cybersecurity exploitation, deception, autonomous replication, and situational awareness, alongside concerning propensities like power-seeking and scheming. The review explores how these evaluation methods integrate into governance frameworks to translate results into concrete development decisions. We also highlight challenges to safety evaluations - proving absence of capabilities, potential model sandbagging, and incentives for "safetywashing" - while identifying promising research directions. By synthesizing scattered resources, this literature review aims to provide a central reference point for understanding AI safety evaluations.
- Abstract(参考訳): 最先端のAIシステムが変革的能力に向かって進むにつれ、安全を確保し、ガバナンスに通知するために、これらのシステムを計測し、評価する方法に並列的な変換が必要です。
ベンチマークはモデル機能を推定する主要な方法だが、真の上限を確立したり、デプロイメントの振る舞いを予測するのに失敗することが多い。
この文献レビューは、AIの安全性評価の急速に発展する分野を集約し、どの特性を計測するか、どのように測定するか、そしてこれらの測定がフレームワークにどのように統合されるかという3次元の体系的な分類法を提案している。
評価は、限界(能力)に押されたときモデルができること、デフォルトが示す行動傾向(正当性)、そして、下位の敵AI(制御)に直面した場合でも安全対策が有効であるかどうかを測定することで、ベンチマークを越えてどのように行われるかを示す。
これらの特性は、足場、赤いチーム、監督された微調整などの行動技術と、表現分析や機械的解釈可能性といった内部技術によって測定される。
我々は、サイバーセキュリティの搾取、騙し、自律的複製、状況認識など、安全性に不可欠ないくつかの機能について、電力の探究やスケジューリングといった不適切性に関して、より深く説明します。
このレビューでは、これらの評価手法がガバナンスフレームワークにどのように統合され、結果が具体的な開発決定に変換されるのかを考察する。
さらに私たちは、能力の欠如、潜在的なモデルサンドバッグング、"セーフティワッシング"のインセンティブといった安全性評価の課題も強調するとともに、有望な研究方向性の特定にも力を入れています。
分散リソースを合成することにより、この文献レビューはAIの安全性評価を理解するための中心的な基準ポイントを提供することを目的としている。
関連論文リスト
- Advancing Embodied Agent Security: From Safety Benchmarks to Input Moderation [52.83870601473094]
エンボディード・エージェントは、複数のドメインにまたがって大きな潜在能力を示す。
既存の研究は主に、一般的な大言語モデルのセキュリティに重点を置いている。
本稿では, エンボディエージェントの保護を目的とした新しい入力モデレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-22T08:34:35Z) - Toward an Evaluation Science for Generative AI Systems [22.733049816407114]
生成型AIシステムの評価科学の成熟を提唱する。
特に,評価指標を実世界のパフォーマンスに適用し,評価指標を反復的に洗練し,評価機関と基準を確立すること,の3つの重要な教訓を提示する。
論文 参考訳(メタデータ) (2025-03-07T11:23:48Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - Evaluating the Safety of Deep Reinforcement Learning Models using
Semi-Formal Verification [81.32981236437395]
本稿では,区間分析に基づく半形式的意思決定手法を提案する。
本手法は, 標準ベンチマークに比較して, 形式検証に対して比較結果を得る。
提案手法は, 意思決定モデルにおける安全性特性を効果的に評価することを可能にする。
論文 参考訳(メタデータ) (2020-10-19T11:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。