論文の概要: What AI evaluations for preventing catastrophic risks can and cannot do
- arxiv url: http://arxiv.org/abs/2412.08653v1
- Date: Tue, 26 Nov 2024 18:00:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-15 08:28:48.598480
- Title: What AI evaluations for preventing catastrophic risks can and cannot do
- Title(参考訳): 破滅的なリスクを防ぐAIの評価は可能か不可能か
- Authors: Peter Barnett, Lisa Thiergart,
- Abstract要約: 評価は、現在のパラダイムでは克服できない基本的な制限に直面している、と我々は主張する。
これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
- 参考スコア(独自算出の注目度): 2.07180164747172
- License:
- Abstract: AI evaluations are an important component of the AI governance toolkit, underlying current approaches to safety cases for preventing catastrophic risks. Our paper examines what these evaluations can and cannot tell us. Evaluations can establish lower bounds on AI capabilities and assess certain misuse risks given sufficient effort from evaluators. Unfortunately, evaluations face fundamental limitations that cannot be overcome within the current paradigm. These include an inability to establish upper bounds on capabilities, reliably forecast future model capabilities, or robustly assess risks from autonomous AI systems. This means that while evaluations are valuable tools, we should not rely on them as our main way of ensuring AI systems are safe. We conclude with recommendations for incremental improvements to frontier AI safety, while acknowledging these fundamental limitations remain unsolved.
- Abstract(参考訳): AI評価はAIガバナンスツールキットの重要なコンポーネントであり、破滅的なリスクを防ぐための現在の安全ケースに対するアプローチの基礎となっている。
本稿は、これらの評価ができることと、我々に教えられないことについて検討する。
評価はAI能力の低いバウンダリを確立し、評価者から十分な努力をすれば、特定の誤用リスクを評価することができる。
残念ながら、評価は現在のパラダイムでは克服できない基本的な制限に直面しています。
これには、能力の上限の確立、将来のモデル能力の確実な予測、自律型AIシステムからのリスクの堅牢な評価などが含まれる。
これは、評価が価値のあるツールである一方で、AIシステムが安全であることを保証する主要な方法として、評価に頼るべきではないことを意味します。
私たちは、フロンティアAI安全性の漸進的な改善を推奨しながら、これらの基本的な制限は未解決であることを認めます。
関連論文リスト
- Declare and Justify: Explicit assumptions in AI evaluations are necessary for effective regulation [2.07180164747172]
規制は、開発者が評価に関する主要な前提を明示的に識別し、正当化する必要がある、と我々は主張する。
我々は、包括的脅威モデリング、プロキシタスクの妥当性、適切な能力付与など、AI評価における中核的な仮定を特定する。
提案したアプローチは,AI開発における透明性の向上を目標とし,先進的なAIシステムのより効果的なガバナンスに向けた実践的な道筋を提供する。
論文 参考訳(メタデータ) (2024-11-19T19:13:56Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Reasons to Doubt the Impact of AI Risk Evaluations [0.0]
本稿では、評価がAIリスクに対する理解と、そのリスクを緩和する能力を大幅に改善するかどうかを問う。
評価プラクティスの改善と、AIラボ、外部評価者、規制当局、学術研究者のための12の推奨事項を結論付けている。
論文 参考訳(メタデータ) (2024-08-05T15:42:51Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Sociotechnical Safety Evaluation of Generative AI Systems [13.546708226350963]
生成AIシステムは、さまざまなリスクを生み出す。
生成AIシステムの安全性を確保するためには、これらのリスクを評価する必要がある。
本稿では,これらのリスクを評価するための構造的,社会学的アプローチを取り入れた3層フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-18T14:13:58Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z) - Quantitative AI Risk Assessments: Opportunities and Challenges [7.35411010153049]
リスクを減らす最善の方法は、包括的なAIライフサイクルガバナンスを実装することです。
リスクは技術コミュニティのメトリクスを使って定量化できます。
本稿では,このようなアプローチの機会,課題,潜在的影響に焦点をあてて,これらの課題について考察する。
論文 参考訳(メタデータ) (2022-09-13T21:47:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。