論文の概要: A Review of the Evidence for Existential Risk from AI via Misaligned
Power-Seeking
- arxiv url: http://arxiv.org/abs/2310.18244v1
- Date: Fri, 27 Oct 2023 16:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 13:08:24.363119
- Title: A Review of the Evidence for Existential Risk from AI via Misaligned
Power-Seeking
- Title(参考訳): 電力探索のミスアライメントによるAIによる既存リスクの証拠のレビュー
- Authors: Rose Hadshar
- Abstract要約: 本稿では,AIシステムが人間の価値観と不一致な目標を達成し,不一致なAIが積極的に力を求めるような,AIの実在するリスクの証拠をレビューする。
証拠の現在の状態は、過度に整合した電力探索の極端な形態の存在に関して不確定であることがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rapid advancements in artificial intelligence (AI) have sparked growing
concerns among experts, policymakers, and world leaders regarding the potential
for increasingly advanced AI systems to pose existential risks. This paper
reviews the evidence for existential risks from AI via misalignment, where AI
systems develop goals misaligned with human values, and power-seeking, where
misaligned AIs actively seek power. The review examines empirical findings,
conceptual arguments and expert opinion relating to specification gaming, goal
misgeneralization, and power-seeking. The current state of the evidence is
found to be concerning but inconclusive regarding the existence of extreme
forms of misaligned power-seeking. Strong empirical evidence of specification
gaming combined with strong conceptual evidence for power-seeking make it
difficult to dismiss the possibility of existential risk from misaligned
power-seeking. On the other hand, to date there are no public empirical
examples of misaligned power-seeking in AI systems, and so arguments that
future systems will pose an existential risk remain somewhat speculative. Given
the current state of the evidence, it is hard to be extremely confident either
that misaligned power-seeking poses a large existential risk, or that it poses
no existential risk. The fact that we cannot confidently rule out existential
risk from AI via misaligned power-seeking is cause for serious concern.
- Abstract(参考訳): 人工知能(AI)の急速な進歩は、専門家、政策立案者、そして世界のリーダーの間で、より高度なAIシステムが現実的なリスクをもたらす可能性に対する懸念が高まりつつある。
本稿では,AIシステムが人間の価値観と不一致な目標を達成し,不一致なAIが積極的に力を求めるような,AIの実在するリスクの証拠をレビューする。
このレビューは、経験的知見、概念的議論、仕様ゲーム、目標の一般化、パワーシーキングに関する専門家の意見を考察している。
証拠の現在の状態は、過度に整合した電力探索の極端な形態の存在に関して不確定である。
仕様ゲームと強力な概念的証拠が組み合わさった強い実証的証拠は、実存リスクの可能性を不一致の電力探究から排除することを困難にしている。
一方、これまでAIシステムに不整合電力探索の公的な実証例は存在せず、将来のシステムが実在的なリスクをもたらすという議論は幾らか投機的のままである。
証拠の現在の状況を考えると、不整合電力探索が大きな存在リスクを生じさせるか、実在リスクを生じさせるかのどちらかが極めて確実である。
不正な電力探索を通じてAIから現実的なリスクを確実に排除できないという事実は、深刻な懸念を引き起こします。
関連論文リスト
- Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。
私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文 参考訳(メタデータ) (2024-10-25T07:53:32Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Near to Mid-term Risks and Opportunities of Open-Source Generative AI [94.06233419171016]
Generative AIの応用は、科学や医学、教育など、さまざまな分野に革命をもたらすことが期待されている。
こうした地震の影響の可能性は、潜在的なリスクに関する活発な議論を引き起こし、より厳格な規制を要求した。
この規制は、オープンソースのジェネレーティブAIの誕生する分野を危険にさらしている可能性が高い。
論文 参考訳(メタデータ) (2024-04-25T21:14:24Z) - The Reasoning Under Uncertainty Trap: A Structural AI Risk [0.0]
RUUを人間と機械の両方にとって困難なものにしているのは、レポートにある。
この誤用リスクが、基盤となる構造的リスクのネットワークとどのように結びつくのかを詳述する。
論文 参考訳(メタデータ) (2024-01-29T17:16:57Z) - Artificial Intelligence: Arguments for Catastrophic Risk [0.0]
我々は、AIが破滅的なリスクにどう影響するかを示すために、2つの影響力ある議論をレビューする。
電力探究の問題の最初の議論は、先進的なAIシステムが危険な電力探究行動に関与する可能性が高いと主張している。
第2の主張は、人間レベルのAIの開発が、さらなる進歩を早めるだろう、というものである。
論文 参考訳(メタデータ) (2024-01-27T19:34:13Z) - Two Types of AI Existential Risk: Decisive and Accumulative [3.5051464966389116]
本稿では,従来の「決定型AI x-リスク仮説」と「累積型AI x-リスク仮説」を対比する。
累積仮説は、インクリメンタルなAIリスクが徐々に収束し、トリガーイベントが不可逆的な崩壊をもたらすまでレジリエンスを損なう、沸騰するカエルのシナリオを示唆している。
論文 参考訳(メタデータ) (2024-01-15T17:06:02Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Current and Near-Term AI as a Potential Existential Risk Factor [5.1806669555925975]
我々は、現在および短期的な人工知能技術が、現実的なリスクに寄与する可能性があるという考えを問題視する。
我々は、すでに文書化されているAIの効果が、実在するリスク要因として機能する、という仮説を提案する。
私たちの主な貢献は、潜在的なAIリスク要因とそれら間の因果関係の展示です。
論文 参考訳(メタデータ) (2022-09-21T18:56:14Z) - AI Research Considerations for Human Existential Safety (ARCHES) [6.40842967242078]
負の言葉で言えば、我々は人類が次の世紀のAI開発から直面する現実的なリスクを問う。
Emphprepotenceという,仮説AI技術の鍵となる性質
その後、既存の安全に対する潜在的な利益のために、現代の研究方向の集合が検討される。
論文 参考訳(メタデータ) (2020-05-30T02:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。