論文の概要: A Review of the Evidence for Existential Risk from AI via Misaligned
Power-Seeking
- arxiv url: http://arxiv.org/abs/2310.18244v1
- Date: Fri, 27 Oct 2023 16:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:08:24.363119
- Title: A Review of the Evidence for Existential Risk from AI via Misaligned
Power-Seeking
- Title(参考訳): 電力探索のミスアライメントによるAIによる既存リスクの証拠のレビュー
- Authors: Rose Hadshar
- Abstract要約: 本稿では,AIシステムが人間の価値観と不一致な目標を達成し,不一致なAIが積極的に力を求めるような,AIの実在するリスクの証拠をレビューする。
証拠の現在の状態は、過度に整合した電力探索の極端な形態の存在に関して不確定であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid advancements in artificial intelligence (AI) have sparked growing
concerns among experts, policymakers, and world leaders regarding the potential
for increasingly advanced AI systems to pose existential risks. This paper
reviews the evidence for existential risks from AI via misalignment, where AI
systems develop goals misaligned with human values, and power-seeking, where
misaligned AIs actively seek power. The review examines empirical findings,
conceptual arguments and expert opinion relating to specification gaming, goal
misgeneralization, and power-seeking. The current state of the evidence is
found to be concerning but inconclusive regarding the existence of extreme
forms of misaligned power-seeking. Strong empirical evidence of specification
gaming combined with strong conceptual evidence for power-seeking make it
difficult to dismiss the possibility of existential risk from misaligned
power-seeking. On the other hand, to date there are no public empirical
examples of misaligned power-seeking in AI systems, and so arguments that
future systems will pose an existential risk remain somewhat speculative. Given
the current state of the evidence, it is hard to be extremely confident either
that misaligned power-seeking poses a large existential risk, or that it poses
no existential risk. The fact that we cannot confidently rule out existential
risk from AI via misaligned power-seeking is cause for serious concern.
- Abstract(参考訳): 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、より高度なAIシステムが現実的なリスクをもたらす可能性に対する懸念が高まりつつある。
本稿では,AIシステムが人間の価値観と不一致な目標を達成し,不一致なAIが積極的に力を求めるような,AIの実在するリスクの証拠をレビューする。
このレビューは、経験的知見、概念的議論、仕様ゲーム、目標の一般化、パワーシーキングに関する専門家の意見を考察している。
証拠の現在の状態は、過度に整合した電力探索の極端な形態の存在に関して不確定である。
仕様ゲームと強力な概念的証拠が組み合わさった強い実証的証拠は、実存リスクの可能性を不一致の電力探究から排除することを困難にしている。
一方、これまでAIシステムに不整合電力探索の公的な実証例は存在せず、将来のシステムが実在的なリスクをもたらすという議論は幾らか投機的のままである。
証拠の現在の状況を考えると、不整合電力探索が大きな存在リスクを生じさせるか、実在リスクを生じさせるかのどちらかが極めて確実である。
不正な電力探索を通じてAIから現実的なリスクを確実に排除できないという事実は、深刻な懸念を引き起こします。
関連論文リスト
- Near to Mid-term Risks and Opportunities of Open Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのGenerative AIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - The Reasoning Under Uncertainty Trap: A Structural AI Risk [0.0]
RUUを人間と機械の両方にとって困難なものにしているのは、レポートにある。
この誤用リスクが、基盤となる構造的リスクのネットワークとどのように結びつくのかを詳述する。
論文 参考訳(メタデータ) (2024-01-29T17:16:57Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - Two Types of AI Existential Risk: Decisive and Accumulative [3.5051464966389116]
本稿では,従来の「決定型AI x-リスク仮説」と「累積型AI x-リスク仮説」を対比する。
累積仮説は、インクリメンタルなAIリスクが徐々に収束し、トリガーイベントが不可逆的な崩壊をもたらすまでレジリエンスを損なう、沸騰するカエルのシナリオを示唆している。
論文 参考訳(メタデータ) (2024-01-15T17:06:02Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - Managing AI Risks in an Era of Rapid Progress [147.61764296776164]
我々は、大規模社会被害と悪用、および自律型AIシステムに対する人間の制御の不可逆的喪失について検討する。
迅速かつ継続的なAIの進歩を踏まえ、我々はAI研究開発とガバナンスの緊急優先事項を提案する。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Current and Near-Term AI as a Potential Existential Risk Factor [5.1806669555925975]
我々は、現在および短期的な人工知能技術が、現実的なリスクに寄与する可能性があるという考えを問題視する。
我々は、すでに文書化されているAIの効果が、実在するリスク要因として機能する、という仮説を提案する。
私たちの主な貢献は、潜在的なAIリスク要因とそれら間の因果関係の展示です。
論文 参考訳(メタデータ) (2022-09-21T18:56:14Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - AI Research Considerations for Human Existential Safety (ARCHES) [6.40842967242078]
負の言葉で言えば、我々は人類が次の世紀のAI開発から直面する現実的なリスクを問う。
Emphprepotenceという,仮説AI技術の鍵となる性質
その後、既存の安全に対する潜在的な利益のために、現代の研究方向の集合が検討される。
論文 参考訳(メタデータ) (2020-05-30T02:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。