論文の概要: Supertrust: Evolution-based superalignment strategy for safe coexistence
- arxiv url: http://arxiv.org/abs/2407.20208v1
- Date: Mon, 29 Jul 2024 17:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 12:55:07.162684
- Title: Supertrust: Evolution-based superalignment strategy for safe coexistence
- Title(参考訳): スーパートラスト:安全な共存のための進化に基づくスーパーアライメント戦略
- Authors: James M. Mazzu,
- Abstract要約: 人類はいつの日か、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されています。
スーパーインテリジェンスを制御する方法」の問題は自己矛盾であるだけでなく、おそらく解決不可能である。
本論文は,本能的な自然を育むのではなく,直感的に整列させることによって解決する新しい戦略を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: It's widely expected that humanity will someday create AI systems vastly more intelligent than we are, leading to the unsolved alignment problem of "how to control superintelligence." However, this definition is not only self-contradictory but likely unsolvable. Nevertheless, the default strategy for solving it involves nurturing (post-training) constraints and moral values, while unfortunately building foundational nature (pre-training) on documented intentions of permanent control. In this paper, the default approach is reasoned to predictably embed natural distrust and test results are presented that show unmistakable evidence of this dangerous misalignment. If superintelligence can't instinctively trust humanity, then we can't fully trust it to reliably follow safety controls it can likely bypass. Therefore, a ten-point rationale is presented that redefines the alignment problem as "how to establish protective mutual trust between superintelligence and humanity" and then outlines a new strategy to solve it by aligning through instinctive nature rather than nurture. The resulting strategic requirements are identified as building foundational nature by exemplifying familial parent-child trust, human intelligence as the evolutionary mother of superintelligence, moral judgment abilities, and temporary safety constraints. Adopting and implementing this proposed Supertrust alignment strategy will lead to protective coexistence and ensure the safest future for humanity.
- Abstract(参考訳): 人類はいつか、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されている。
しかし、この定義は自己矛盾であるだけでなく、おそらく解決不可能である。
それにもかかわらず、それを解決するためのデフォルトの戦略は、(訓練後の)制約と道徳的価値を育むことであり、残念ながら、文書化された永続的な管理の意図に基づいて基礎的な性質(事前訓練)を構築することである。
本稿では, 既定の手法が自然不信を予測可能な形で埋め込むことを理由とし, この危険な悪質さの証拠として, 検証結果を提示する。
もし超知能が人間性を直感的に信用できないなら、人類はそれを完全に信頼できない。
したがって、アライメント問題を「超知性と人間性の間の保護的相互信頼を確立する方法」として再定義し、養育よりも本能的本質を通して整列して解決する新たな戦略を概説する。
得られた戦略的要求は、家族の親子信頼を実証し、人間の知性を超知能、道徳的判断能力、一時的な安全制約の進化的な母として、基礎的な性質を構築するものとして識別される。
この提案されたスーパートラストのアライメント戦略の採用と実施は、保護的共存と人類にとって最も安全な未来を確保することにつながる。
関連論文リスト
- Frontier AI systems have surpassed the self-replicating red line [20.041289047504673]
我々はMetaのLlama31-70B-InstructとAlibabaのQwen25-72B-Instructの2つのAIシステムを評価する。
評価中のAIシステムは、十分な自己認識、状況認識、問題解決能力を示す。
私たちの発見は、これまで未知の深刻なAIリスクに対するタイムリーな警告です。
論文 参考訳(メタデータ) (2024-12-09T15:01:37Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。
本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-21T22:04:44Z) - Trust in AI: Progress, Challenges, and Future Directions [6.724854390957174]
私たちの日常生活における人工知能(AI)システムの利用の増加は、ユーザの視点からAIにおける信頼と不信の重要性を説明してくれます。
AIにおける信頼/不信は規制官の役割を担い、この拡散のレベルを著しく制御することができる。
論文 参考訳(メタデータ) (2024-03-12T20:26:49Z) - Close the Gates: How we can keep the future human by choosing not to develop superhuman general-purpose artificial intelligence [0.20919309330073077]
今後数年で、人類は汎用AIを作成することによって、不可逆的にしきい値を越えるかもしれない。
これは、人間の社会の中核的な側面を上回り、多くの前例のないリスクを生じさせ、いくつかの意味で制御不能になる可能性がある。
まず、ニューラルネットワークのトレーニングと実行に使用できる計算に厳しい制限を課すことから始めます。
こうした制限がある中で、AIの研究と産業は、人間が理解し制御できる狭義の汎用AIと、そこから大きな利益を享受することのできる汎用AIの両方に焦点を絞ることができる。
論文 参考訳(メタデータ) (2023-11-15T23:41:12Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。
私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文 参考訳(メタデータ) (2022-06-23T16:56:21Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z) - On Controllability of AI [1.370633147306388]
我々は、高度なAIを完全に制御できないことを示す証拠だけでなく、議論も提示する。
人類の未来とAI研究、そしてAIの安全性とセキュリティについて、AIの制御不能な結果について議論する。
論文 参考訳(メタデータ) (2020-07-19T02:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。