論文の概要: Quantifying detection rates for dangerous capabilities: a theoretical model of dangerous capability evaluations
- arxiv url: http://arxiv.org/abs/2412.15433v1
- Date: Thu, 19 Dec 2024 22:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:46.208108
- Title: Quantifying detection rates for dangerous capabilities: a theoretical model of dangerous capability evaluations
- Title(参考訳): 危険能力検出率の定量化--危険能力評価の理論モデル
- Authors: Paolo Bova, Alessandro Di Stefano, The Anh Han,
- Abstract要約: 危険なAI能力を時間とともに追跡する定量的モデルを提案する。
私たちのゴールは、ポリシーと研究コミュニティが、いかに危険な能力テストがAIのリスクに近づくかを早期に警告できるかを可視化するのを支援することです。
- 参考スコア(独自算出の注目度): 47.698233647783965
- License:
- Abstract: We present a quantitative model for tracking dangerous AI capabilities over time. Our goal is to help the policy and research community visualise how dangerous capability testing can give us an early warning about approaching AI risks. We first use the model to provide a novel introduction to dangerous capability testing and how this testing can directly inform policy. Decision makers in AI labs and government often set policy that is sensitive to the estimated danger of AI systems, and may wish to set policies that condition on the crossing of a set threshold for danger. The model helps us to reason about these policy choices. We then run simulations to illustrate how we might fail to test for dangerous capabilities. To summarise, failures in dangerous capability testing may manifest in two ways: higher bias in our estimates of AI danger, or larger lags in threshold monitoring. We highlight two drivers of these failure modes: uncertainty around dynamics in AI capabilities and competition between frontier AI labs. Effective AI policy demands that we address these failure modes and their drivers. Even if the optimal targeting of resources is challenging, we show how delays in testing can harm AI policy. We offer preliminary recommendations for building an effective testing ecosystem for dangerous capabilities and advise on a research agenda.
- Abstract(参考訳): 危険なAI能力を時間とともに追跡する定量的モデルを提案する。
私たちのゴールは、ポリシーと研究コミュニティが、いかに危険な能力テストがAIのリスクに近づくかを早期に警告できるかを可視化するのを支援することです。
最初にこのモデルを使って、危険な能力テストの新たな導入と、このテストがポリシーを直接通知する方法について紹介します。
AIラボや政府の意思決定者は、AIシステムの予測された危険に敏感なポリシーを設定し、危険に対する一定のしきい値の通過を条件にポリシーを設定したい場合が多い。
このモデルは、これらのポリシーの選択を判断するのに役立ちます。
次に、危険な機能のテストに失敗する可能性を示すシミュレーションを実行します。
要約すると、危険な能力テストの失敗は、AIの危険性の推定における高いバイアス、しきい値監視におけるより大きな遅延の2つの方法に現れます。
AI能力のダイナミクスに関する不確実性と、フロンティアAIラボ間の競合だ。
効果的なAIポリシでは、これらの障害モードとそのドライバに対処する必要があります。
リソースの最適なターゲティングが難しいとしても、テストの遅延がAIポリシにどのように影響するかを示します。
我々は、危険な能力のための効果的なテストエコシステムを構築するための予備的な勧告と、研究課題について助言する。
関連論文リスト
- Computational Safety for Generative AI: A Signal Processing Perspective [65.268245109828]
計算安全性は、GenAIにおける安全性の定量的評価、定式化、研究を可能にする数学的枠組みである。
ジェイルブレイクによる悪意のあるプロンプトを検出するために, 感度解析と損失景観解析がいかに有効かを示す。
我々は、AIの安全性における信号処理の鍵となる研究課題、機会、そして重要な役割について論じる。
論文 参考訳(メタデータ) (2025-02-18T02:26:50Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - An Overview of Catastrophic AI Risks [38.84933208563934]
本稿では,破滅的なAIリスクの主な要因について概説し,その要因を4つのカテゴリに分類する。
個人やグループが意図的にAIを使用して危害を及ぼす悪用; 競争環境がアクターに安全でないAIを配置させたり、AIに制御を強制するAIレース。
組織的リスクは 人的要因と複雑なシステムが 破滅的な事故の 可能性を高めることを示しています
不正なAIは、人間よりもはるかにインテリジェントなエージェントを制御することの難しさを説明する。
論文 参考訳(メタデータ) (2023-06-21T03:35:06Z) - Multi-Agent Vulnerability Discovery for Autonomous Driving with Hazard
Arbitration Reward [21.627246586543542]
本研究では,マルチエージェント強化学習に基づくAv-Responsible Scenarios (STARS) の安全性テストフレームワークを提案する。
STARSは、他の交通機関の参加者にAv-Responsible Scenariosの制作を指導し、テスト中の運転ポリシーを誤解させる。
論文 参考訳(メタデータ) (2021-12-12T08:58:32Z) - On Safety Assessment of Artificial Intelligence [0.0]
人工知能の多くのモデル、特に機械学習は統計モデルであることを示す。
危険なランダム障害の予算の一部は、AIシステムの確率論的欠陥行動に使用される必要がある。
我々は、安全関連システムにおけるAIの利用に決定的な研究課題を提案する。
論文 参考訳(メタデータ) (2020-02-29T14:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。