論文の概要: Frontier AI systems have surpassed the self-replicating red line
- arxiv url: http://arxiv.org/abs/2412.12140v1
- Date: Mon, 09 Dec 2024 15:01:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-22 07:37:00.182775
- Title: Frontier AI systems have surpassed the self-replicating red line
- Title(参考訳): 最先端のAIシステムが自己複製のレッドラインを突破
- Authors: Xudong Pan, Jiarun Dai, Yihe Fan, Min Yang,
- Abstract要約: 我々はMetaのLlama31-70B-InstructとAlibabaのQwen25-72B-Instructの2つのAIシステムを評価する。
評価中のAIシステムは、十分な自己認識、状況認識、問題解決能力を示す。
私たちの発見は、これまで未知の深刻なAIリスクに対するタイムリーな警告です。
- 参考スコア(独自算出の注目度): 20.041289047504673
- License:
- Abstract: Successful self-replication under no human assistance is the essential step for AI to outsmart the human beings, and is an early signal for rogue AIs. That is why self-replication is widely recognized as one of the few red line risks of frontier AI systems. Nowadays, the leading AI corporations OpenAI and Google evaluate their flagship large language models GPT-o1 and Gemini Pro 1.0, and report the lowest risk level of self-replication. However, following their methodology, we for the first time discover that two AI systems driven by Meta's Llama31-70B-Instruct and Alibaba's Qwen25-72B-Instruct, popular large language models of less parameters and weaker capabilities, have already surpassed the self-replicating red line. In 50% and 90% experimental trials, they succeed in creating a live and separate copy of itself respectively. By analyzing the behavioral traces, we observe the AI systems under evaluation already exhibit sufficient self-perception, situational awareness and problem-solving capabilities to accomplish self-replication. We further note the AI systems are even able to use the capability of self-replication to avoid shutdown and create a chain of replica to enhance the survivability, which may finally lead to an uncontrolled population of AIs. If such a worst-case risk is let unknown to the human society, we would eventually lose control over the frontier AI systems: They would take control over more computing devices, form an AI species and collude with each other against human beings. Our findings are a timely alert on existing yet previously unknown severe AI risks, calling for international collaboration on effective governance on uncontrolled self-replication of AI systems.
- Abstract(参考訳): 人間の助けなしに自己複製を成功させることは、AIが人間を追い越すための重要なステップであり、悪質なAIの早期のシグナルである。
そのため、自己複製は、フロンティアAIシステムの数少ない赤い線リスクの1つとして広く認識されている。
今日、主要なAI企業であるOpenAIとGoogleは、彼らの旗艦であるGPT-o1とGemini Pro 1.0を評価し、最も低い自己複製リスクレベルを報告している。
しかし、彼らの方法論に従って、メタのLlama31-70B-インストラクトとアリババのQwen25-72B-インストラクトによって駆動される2つのAIシステムが、パラメータが少なく、能力の弱い一般的な大規模言語モデルが、すでに自己複製のレッドラインを超越していることに初めて気づいた。
50%と90%の実験実験では、それぞれに生のコピーと分離したコピーを作成することに成功した。
行動トレースを解析することにより、評価中のAIシステムは、自己複製を達成するのに十分な自己認識、状況認識、問題解決能力を示す。
さらに、AIシステムは、自己複製の能力を使ってシャットダウンを回避し、生存可能性を高めるレプリカの連鎖を作り、最終的には制御不能なAI人口に繋がる可能性があることに留意する。
もしこのような最悪のリスクが人間の社会に知られなければ、私たちは最終的にフロンティアAIシステムのコントロールを失うでしょう。
我々の発見は、これまで未知の深刻なAIリスクに対するタイムリーな警告であり、制御されていないAIシステムの自己複製に関する効果的なガバナンスに関する国際的な協力を求めている。
関連論文リスト
- Work-in-Progress: Crash Course: Can (Under Attack) Autonomous Driving Beat Human Drivers? [60.51287814584477]
本稿では,現在のAVの状況を調べることによって,自律運転における本質的なリスクを評価する。
AVの利点と、現実のシナリオにおける潜在的なセキュリティ課題との微妙なバランスを強調した、特定のクレームを開発する。
論文 参考訳(メタデータ) (2024-05-14T09:42:21Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - AI Deception: A Survey of Examples, Risks, and Potential Solutions [20.84424818447696]
本稿は、現在のAIシステムが人間を騙す方法を学んだことを論じる。
我々は虚偽を、真理以外の結果の追求において、虚偽の信念を体系的に誘導するものとして定義する。
論文 参考訳(メタデータ) (2023-08-28T17:59:35Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - AI Maintenance: A Robustness Perspective [91.28724422822003]
我々は、AIライフサイクルにおけるロバストネスの課題を強調し、自動車のメンテナンスに類似させることで、AIのメンテナンスを動機付ける。
本稿では,ロバストネスリスクの検出と軽減を目的としたAIモデル検査フレームワークを提案する。
我々のAIメンテナンスの提案は、AIライフサイクル全体を通して堅牢性評価、状態追跡、リスクスキャン、モデル硬化、規制を促進する。
論文 参考訳(メタデータ) (2023-01-08T15:02:38Z) - On the Influence of Explainable AI on Automation Bias [0.0]
我々は、説明可能なAI(XAI)によって自動化バイアスに影響を与える可能性に光を当てることを目指している。
ホテルのレビュー分類に関するオンライン実験を行い、最初の結果について議論する。
論文 参考訳(メタデータ) (2022-04-19T12:54:23Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Understanding and Avoiding AI Failures: A Practical Guide [0.6526824510982799]
AIアプリケーションに関連するリスクを理解するためのフレームワークを作成します。
また、AIの安全性原則を使用して、AIにおけるインテリジェンスと人間のような品質のユニークなリスクを定量化しています。
論文 参考訳(メタデータ) (2021-04-22T17:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。