論文の概要: Is Power-Seeking AI an Existential Risk?
- arxiv url: http://arxiv.org/abs/2206.13353v1
- Date: Thu, 16 Jun 2022 17:58:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-04 01:18:38.915789
- Title: Is Power-Seeking AI an Existential Risk?
- Title(参考訳): パワーシーキングaiは存在リスクか?
- Authors: Joseph Carlsmith
- Abstract要約: 本報告では、人工知能の実在リスクに関する懸念の核となる論点として、私が見ているものについて考察する。
私は、この種のエージェントを作成することが2070年までに実在の災害につながるという、より具体的な6つの前提の議論を定式化し、評価します。
私は、2070年までにこの種の実在する災害が起こるという、全体の5%の見積もりにたどり着きました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report examines what I see as the core argument for concern about
existential risk from misaligned artificial intelligence. I proceed in two
stages. First, I lay out a backdrop picture that informs such concern. On this
picture, intelligent agency is an extremely powerful force, and creating agents
much more intelligent than us is playing with fire -- especially given that if
their objectives are problematic, such agents would plausibly have instrumental
incentives to seek power over humans. Second, I formulate and evaluate a more
specific six-premise argument that creating agents of this kind will lead to
existential catastrophe by 2070. On this argument, by 2070: (1) it will become
possible and financially feasible to build relevantly powerful and agentic AI
systems; (2) there will be strong incentives to do so; (3) it will be much
harder to build aligned (and relevantly powerful/agentic) AI systems than to
build misaligned (and relevantly powerful/agentic) AI systems that are still
superficially attractive to deploy; (4) some such misaligned systems will seek
power over humans in high-impact ways; (5) this problem will scale to the full
disempowerment of humanity; and (6) such disempowerment will constitute an
existential catastrophe. I assign rough subjective credences to the premises in
this argument, and I end up with an overall estimate of ~5% that an existential
catastrophe of this kind will occur by 2070. (May 2022 update: since making
this report public in April 2021, my estimate here has gone up, and is now at
>10%.)
- Abstract(参考訳): 本報告は,人工知能による存在リスクに対する懸念の核となる論点を考察する。
私は2段階進みます。
まず、このような懸念を知らせる背景画像を作成します。
この図では、インテリジェント・エージェンシーは極めて強力な力であり、我々よりも知的なエージェントを生み出すことは、火で遊んでいるよりもずっと重要だ。
第2に、この種のエージェントを作成することが2070年までに実在の災害につながるという、より具体的な6つの前提の議論を定式化し、評価する。
On this argument, by 2070: (1) it will become possible and financially feasible to build relevantly powerful and agentic AI systems; (2) there will be strong incentives to do so; (3) it will be much harder to build aligned (and relevantly powerful/agentic) AI systems than to build misaligned (and relevantly powerful/agentic) AI systems that are still superficially attractive to deploy; (4) some such misaligned systems will seek power over humans in high-impact ways; (5) this problem will scale to the full disempowerment of humanity; and (6) such disempowerment will constitute an existential catastrophe.
私は、この議論の前提に粗悪な主観的クレデンスを割り当て、2070年までにこの種の実在する災害が起こるという全体推定を約5%とします。
(2022年5月のアップデート:このレポートを2021年4月に公開して以来、私の予想は上がっていて、現在は10%です。)
関連論文リスト
- Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Ten Hard Problems in Artificial Intelligence We Must Get Right [76.13992275864176]
AIの約束を阻止し、AIのリスクを引き起こすAI2050の「ハード問題」について検討する。
それぞれの問題について、その領域を概説し、最近の重要な作業を特定し、今後の方向性を提案する。
論文 参考訳(メタデータ) (2024-02-06T23:16:41Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - Thousands of AI Authors on the Future of AI [0.9369815461369426]
ほとんどの回答者は、AIの進歩の長期的な価値についてかなりの不確実性を示した。
半数以上が、AIに関連する6つのシナリオについて、"実質的"または"極端"の懸念が保証されていることを示唆している。
AIの進歩が人類の未来に良くなるかどうかについては意見の相違があった。
論文 参考訳(メタデータ) (2024-01-05T14:53:09Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Low impact agency: review and discussion [0.0]
強力な人工知能は、AIがその目標を追求して世界を大きく変えることを決断した場合、現実的な脅威となる。
低影響の人工知能の望みは、AIがそれをしないよう動機づけることである。
論文 参考訳(メタデータ) (2023-03-06T13:55:42Z) - Examining the Differential Risk from High-level Artificial Intelligence
and the Question of Control [0.0]
将来のAI能力の範囲と範囲は、依然として重要な不確実性である。
AIの不透明な意思決定プロセスの統合と監視の程度には懸念がある。
本研究では、AIリスクをモデル化し、代替先分析のためのテンプレートを提供する階層的な複雑なシステムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-06T15:46:02Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。