論文の概要: Towards evaluations-based safety cases for AI scheming
- arxiv url: http://arxiv.org/abs/2411.03336v2
- Date: Thu, 07 Nov 2024 09:18:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-08 19:36:33.198722
- Title: Towards evaluations-based safety cases for AI scheming
- Title(参考訳): 評価に基づくAIスケジューリングの安全事例に向けて
- Authors: Mikita Balesni, Marius Hobbhahn, David Lindner, Alexander Meinke, Tomek Korbak, Joshua Clymer, Buck Shlegeris, Jérémy Scheurer, Charlotte Stix, Rusheb Shah, Nicholas Goldowsky-Dill, Dan Braun, Bilal Chughtai, Owain Evans, Daniel Kokotajlo, Lucius Bushnaq,
- Abstract要約: 本論では,安全事例がスケジューリングに有効である,という3つの論点を提案する。
第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリングができないと主張するかもしれない。
第二に、AIシステムはスケジューリングによって害を与えることができない、という主張もある。
第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れられない結果を防ぐと論じることもできる。
- 参考スコア(独自算出の注目度): 37.399946932069746
- License:
- Abstract: We sketch how developers of frontier AI systems could construct a structured rationale -- a 'safety case' -- that an AI system is unlikely to cause catastrophic outcomes through scheming. Scheming is a potential threat model where AI systems could pursue misaligned goals covertly, hiding their true capabilities and objectives. In this report, we propose three arguments that safety cases could use in relation to scheming. For each argument we sketch how evidence could be gathered from empirical evaluations, and what assumptions would need to be met to provide strong assurance. First, developers of frontier AI systems could argue that AI systems are not capable of scheming (Scheming Inability). Second, one could argue that AI systems are not capable of posing harm through scheming (Harm Inability). Third, one could argue that control measures around the AI systems would prevent unacceptable outcomes even if the AI systems intentionally attempted to subvert them (Harm Control). Additionally, we discuss how safety cases might be supported by evidence that an AI system is reasonably aligned with its developers (Alignment). Finally, we point out that many of the assumptions required to make these safety arguments have not been confidently satisfied to date and require making progress on multiple open research problems.
- Abstract(参考訳): 私たちは、フロンティアAIシステムの開発者が、AIシステムがスケジュールによって破滅的な結果をもたらすことはありそうにない、構造化された根拠("安全ケース")を構築する方法について、スケッチします。
スキーマは、AIシステムが間違った目標を秘密裏に追求し、真の能力と目標を隠蔽する潜在的な脅威モデルである。
本報告では,安全事例がスケジューリングに有効であるとする3つの論点を提案する。
それぞれの議論に対して、実証的な評価からエビデンスをどのように集めるか、そして強い保証を提供するためにはどんな仮定を満たさなければならないのかをスケッチします。
第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリング能力がないと主張するかもしれない(Scheming Inability)。
第二に、AIシステムはスケジューリング(Harm Inability)によって害を与えることができない、という主張もある。
第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れがたい結果を防ぐ、という主張もある(Harm Control)。
さらに、AIシステムが開発者(アラインメント)と合理的に一致しているという証拠によって、安全ケースをどのようにサポートできるかについて議論する。
最後に、これらの安全性の議論を行うために必要な前提の多くは、現在までに自信を持って満たされておらず、複数のオープンな研究課題の進展を必要としていることを指摘する。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Taking AI Welfare Seriously [0.5617572524191751]
我々は、近い将来、一部のAIシステムが意識的または堅牢に作用する可能性があると論じている。
これは近い将来の問題であり、AI企業や他のアクターはそれを真剣に取り始める責任がある。
論文 参考訳(メタデータ) (2024-11-04T17:57:57Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Safety Cases: How to Justify the Safety of Advanced AI Systems [5.097102520834254]
AIシステムがより高度化するにつれ、企業や規制機関は、トレーニングとデプロイが安全かどうかという難しい決定を下すことになる。
安全事例を整理する枠組みを提案し,安全性を正当化するための議論の4つのカテゴリについて論じる。
我々は、各カテゴリにおける議論の具体的な例を評価し、AIシステムが安全にデプロイ可能であることを正当化するために、議論をどのように組み合わせるかを概説する。
論文 参考訳(メタデータ) (2024-03-15T16:53:13Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.84424818447696]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文 参考訳(メタデータ) (2023-08-28T17:59:35Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。