論文の概要: Extinction Risks from AI: Invisible to Science?
- arxiv url: http://arxiv.org/abs/2403.05540v1
- Date: Fri, 2 Feb 2024 23:04:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 08:36:53.278493
- Title: Extinction Risks from AI: Invisible to Science?
- Title(参考訳): AIによる絶滅リスク:科学に見えないか?
- Authors: Vojtech Kovarik, Christian van Merwijk, Ida Mattsson,
- Abstract要約: 絶滅レベルのグッドハートの法則は「極端に追求されたあらゆる目標仕様は、人類の絶滅をもたらす」。
このことは、人工知能による絶滅のリスクが本物であるかどうか、その基礎となるダイナミクスが現在の科学的手法には見えない可能性を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In an effort to inform the discussion surrounding existential risks from AI, we formulate Extinction-level Goodhart's Law as "Virtually any goal specification, pursued to the extreme, will result in the extinction of humanity", and we aim to understand which formal models are suitable for investigating this hypothesis. Note that we remain agnostic as to whether Extinction-level Goodhart's Law holds or not. As our key contribution, we identify a set of conditions that are necessary for a model that aims to be informative for evaluating specific arguments for Extinction-level Goodhart's Law. Since each of the conditions seems to significantly contribute to the complexity of the resulting model, formally evaluating the hypothesis might be exceedingly difficult. This raises the possibility that whether the risk of extinction from artificial intelligence is real or not, the underlying dynamics might be invisible to current scientific methods.
- Abstract(参考訳): AIの実在するリスクに関する議論について、私たちは「極端に追求され、人類の絶滅をもたらすあらゆる目標仕様」として、絶滅レベルのグッドハートの法則を定式化し、この仮説を調査するのにどの形式モデルが適しているかを理解することを目的としている。
排他レベルのグッドハートの法則が成立するか否かについては、引き続き無知である。
本研究の重要貢献として,絶滅レベルのグッドハート法則の特定の議論を評価するための情報提供を目的としたモデルに必要な条件の集合を同定する。
それぞれの条件が結果のモデルの複雑さに大きく寄与しているように見えるので、仮説を正式に評価するのは極めて難しいかもしれない。
このことは、人工知能による絶滅のリスクが本物であるかどうか、その基礎となるダイナミクスが現在の科学的手法には見えない可能性を高める。
関連論文リスト
- Hypothesizing Missing Causal Variables with LLMs [55.28678224020973]
我々は、入力が欠落変数を持つ部分因果グラフであるような新しいタスクを定式化し、出力は部分グラフを完成させるための欠落変数に関する仮説である。
原因と効果の間の媒介変数を仮説化するLLMの強い能力を示す。
また,オープンソースモデルの一部がGPT-4モデルより優れているという驚くべき結果も得られた。
論文 参考訳(メタデータ) (2024-09-04T10:37:44Z) - Can a Bayesian Oracle Prevent Harm from an Agent? [48.12936383352277]
我々は、所定の安全仕様に違反する確率に基づいて、文脈依存境界を推定することを検討する。
世界の異なる仮説が全く異なる結果をもたらす可能性があることに注意し、我々は真だが未知の仮説の下で予測される安全違反の確率に基づいて導かれる。
iidの場合と非idの場合の2つの形態を考察し、その結果を実用的なAIガードレールに変換するためのオープンな問題に結論付ける。
論文 参考訳(メタデータ) (2024-08-09T18:10:42Z) - Control Risk for Potential Misuse of Artificial Intelligence in Science [85.91232985405554]
我々は、科学におけるAI誤用の危険性の認識を高めることを目的としている。
化学科学における誤用の実例を取り上げる。
我々は、科学におけるAIモデルの誤用リスクを制御するSciGuardというシステムを提案する。
論文 参考訳(メタデータ) (2023-12-11T18:50:57Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - The Generative AI Paradox: "What It Can Create, It May Not Understand" [81.89252713236746]
生成AIの最近の波は、潜在的に超人的な人工知能レベルに対する興奮と懸念を引き起こしている。
同時に、モデルは、専門家でない人でも期待できないような理解の基本的な誤りを示している。
一見超人的な能力と、ごく少数の人間が起こすエラーの持続性を、どうやって再現すればよいのか?
論文 参考訳(メタデータ) (2023-10-31T18:07:07Z) - Could AI be the Great Filter? What Astrobiology can Teach the
Intelligence Community about Anthropogenic Risks [0.0]
フェルミ・パラドックス(Fermi Paradox)は、地球外生命体が宇宙で可能ならば、なぜ私たちはそれと遭遇しなかったのか?
1つの興味深い仮説はグレートフィルター (Great Filter) と呼ばれ、これは知的な生命の出現に必要な出来事が極めてありそうにないことを示唆している。
インテリジェンスの観点から見ると、グレートフィルターの文脈における世界的な破滅的なリスクを浮き彫りにすることで、人工知能のような私たちが完全に理解していない技術の長期的な未来についての洞察を得ることができるのです。
論文 参考訳(メタデータ) (2023-05-09T17:50:02Z) - A simplicity bubble problem and zemblanity in digitally intermediated societies [1.4380443010065829]
社会におけるビッグデータと機械学習の普遍性について論じる。
以上の結果から, 公式な知識だけでは, 迷走神経所見の可能性がさらに低下しない天井があることが示唆された。
論文 参考訳(メタデータ) (2023-04-21T00:02:15Z) - Simplified Continuous High Dimensional Belief Space Planning with
Adaptive Probabilistic Belief-dependent Constraints [9.061408029414453]
部分的に観測可能な領域における不確実性、あるいはBelief Space Planningとしても知られる場合、オンライン意思決定は根本的な問題である。
本稿では,確率論的信念に依存した制約に対して,適応的に行動列を受理あるいは破棄する手法を提案する。
本手法を高次元空間計画の課題であるアクティブSLAMに適用する。
論文 参考訳(メタデータ) (2023-02-13T21:22:47Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Impossibility Results in AI: A Survey [3.198144010381572]
不合理性定理(英: impossibility theorem)は、特定の問題や問題の集合が主張に記述されているように解決できないことを示す定理である。
我々はAIの領域に適用可能な不合理性定理を、推論、識別不能、誘導、トレードオフ、難解性の5つのカテゴリに分類した。
我々は,ゆるやかな不合理性は,安全に対する100%の保証を否定する,と結論づける。
論文 参考訳(メタデータ) (2021-09-01T16:52:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。