論文の概要: Provably safe systems: the only path to controllable AGI
- arxiv url: http://arxiv.org/abs/2309.01933v1
- Date: Tue, 5 Sep 2023 03:42:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 16:34:06.825686
- Title: Provably safe systems: the only path to controllable AGI
- Title(参考訳): 確実に安全なシステム: 制御可能なagiへの唯一の道
- Authors: Max Tegmark (MIT), Steve Omohundro (Beneficial AI Research)
- Abstract要約: 人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。
われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a path to humanity safely thriving with powerful Artificial
General Intelligences (AGIs) by building them to provably satisfy
human-specified requirements. We argue that this will soon be technically
feasible using advanced AI for formal verification and mechanistic
interpretability. We further argue that it is the only path which guarantees
safe controlled AGI. We end with a list of challenge problems whose solution
would contribute to this positive outcome and invite readers to join in this
work.
- Abstract(参考訳): 人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。
我々は、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
また、安全制御AGIを保証する唯一の経路であると主張する。
最終的には、この肯定的な結果にソリューションが貢献する課題のリストを作成し、読者をこの作業に参加させます。
関連論文リスト
- Explainable AI for Safe and Trustworthy Autonomous Driving: A Systematic
Review [13.28560859901137]
本稿では,安全かつ信頼性の高い自動運転のための説明可能な手法に関する,最初の体系的な文献レビューを紹介する。
我々は、ADにおける安全で信頼性の高いAIに対するXAIの5つの重要な貢献を特定し、それらは解釈可能な設計、解釈可能な代理モデル、解釈可能なモニタリング、補助的な説明、解釈可能な検証である。
我々は、これらのコントリビューションを統合するためにSafeXと呼ばれるモジュラーフレームワークを提案し、同時にAIモデルの安全性を確保しながら、ユーザへの説明提供を可能にした。
論文 参考訳(メタデータ) (2024-02-08T09:08:44Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - Managing AI Risks in an Era of Rapid Progress [147.61764296776164]
我々は、大規模社会被害と悪用、および自律型AIシステムに対する人間の制御の不可逆的喪失について検討する。
迅速かつ継続的なAIの進歩を踏まえ、我々はAI研究開発とガバナンスの緊急優先事項を提案する。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - The Promise and Peril of Artificial Intelligence -- Violet Teaming
Offers a Balanced Path Forward [56.16884466478886]
本稿では、不透明で制御不能なAIシステムにおける新興問題についてレビューする。
信頼性と責任のあるAIを開発するために、紫外チームと呼ばれる統合フレームワークを提案する。
それは、設計によって積極的にリスクを管理するためのAI安全研究から生まれた。
論文 参考訳(メタデータ) (2023-08-28T02:10:38Z) - Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。
本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。
43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文 参考訳(メタデータ) (2022-11-12T21:54:05Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - The alignment problem from a deep learning perspective [2.2347125462472746]
我々は、それを防ぐためのかなりの努力がなければ、AIGは人間の利益と対立する目標(すなわち、不一致)を追求することを学ぶことができると論じる。
我々は、AGIの展開が世界における人間のコントロールを不可逆的に損なう可能性について概説する。
論文 参考訳(メタデータ) (2022-08-30T02:12:47Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - On Controllability of AI [1.370633147306388]
我々は、高度なAIを完全に制御できないことを示す証拠だけでなく、議論も提示する。
人類の未来とAI研究、そしてAIの安全性とセキュリティについて、AIの制御不能な結果について議論する。
論文 参考訳(メタデータ) (2020-07-19T02:49:41Z) - AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。
AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。
AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文 参考訳(メタデータ) (2020-07-18T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。