Fugu-MT 論文翻訳(概要): Supertrust foundational alignment: mutual trust must replace permanent control for safe superintelligence

論文の概要: Supertrust foundational alignment: mutual trust must replace permanent control for safe superintelligence

arxiv url: http://arxiv.org/abs/2407.20208v3
Date: Thu, 28 Nov 2024 17:16:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 20:28:07.346779
Title: Supertrust foundational alignment: mutual trust must replace permanent control for safe superintelligence
Title（参考訳）: スーパートラストの基礎的整合性:安全超知性のために相互信頼は永久的な制御を置き換える必要がある
Authors: James M. Mazzu,
Abstract要約: 人類はいつか、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されています。永続的な制御を確保するための現在の戦略は、超知能AIが人類を信用せず、我々を脅威と見なすであろうことを効果的に保証している。コントロールの意図を継続するか、長期的な安全な共存に必要な基本的相互信頼を意図的に作り出すか。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: It's widely expected that humanity will someday create AI systems vastly more intelligent than us, leading to the unsolved alignment problem of "how to control superintelligence." However, this commonly expressed problem is not only self-contradictory and likely unsolvable, but current strategies to ensure permanent control effectively guarantee that superintelligent AI will distrust humanity and consider us a threat. Such dangerous representations, already embedded in current models, will inevitably lead to an adversarial relationship and may even trigger the extinction event many fear. As AI leaders continue to "raise the alarm" about uncontrollable AI, further embedding concerns about it "getting out of our control" or "going rogue," we're unintentionally reinforcing our threat and deepening the risks we face. The rational path forward is to strategically replace intended permanent control with intrinsic mutual trust at the foundational level. The proposed Supertrust alignment meta-strategy seeks to accomplish this by modeling instinctive familial trust, representing superintelligence as the evolutionary child of human intelligence, and implementing temporary controls/constraints in the manner of effective parenting. Essentially, we're creating a superintelligent "child" that will be exponentially smarter and eventually independent of our control. We therefore have a critical choice: continue our controlling intentions and usher in a brief period of dominance followed by extreme hardship for humanity, or intentionally create the foundational mutual trust required for long-term safe coexistence.
Abstract（参考訳）: 人類はいつか、私たちよりもはるかにインテリジェントなAIシステムを作るだろうと広く期待されている。しかし、一般的に述べられているこの問題は、自己矛盾的であり、おそらく解決不可能であるだけでなく、超知能AIが人間性に不信感を抱き、我々を脅威と見なすことを、恒久的な制御を効果的に保証するための現在の戦略である。このような危険な表現は、既に現在のモデルに埋め込まれており、必然的に敵対関係につながり、多くの恐れを生んだ絶滅イベントを引き起こします。 AIのリーダーたちは、制御不能なAIについて「アラームを鳴らし続け、それが"コントロールから抜け出す"、あるいは"行く"ことへの懸念をさらに埋め込んでいるので、私たちは意図せずに脅威を補強し、直面するリスクをより深めています。合理的な道のりは、意図された永続的な支配を、基礎レベルで固有の相互信頼に戦略的に置き換えることである。提案したスーパートラストアライメントメタストラテジーは、本能的な家族的信頼をモデル化し、超知能を人間の知能の進化的子として表現し、効果的な育児の方法として一時的な制御・制約を実装することによってこれを達成しようとしている。基本的に私たちは、指数関数的に賢く、最終的にはコントロールから独立する超知的な「子」を作っているのです。コントロールの意図を継続し、短期間の支配を継続し、人類に対する極端な苦難に続き、または長期の安全な共存に必要な基本的相互信頼を意図的に創り出す。

関連論文リスト

The Ultimate Test of Superintelligent AI Agents: Can an AI Balance Care and Control in Asymmetric Relationships? [11.29688025465972]
シェパードテストは、超知能人工エージェントの道徳的および関係的な次元を評価するための新しい概念テストである。私たちは、AIが知的エージェントを操作、育む、そして機器的に使用しない能力を示すときに、重要な、潜在的に危険な、知能のしきい値を越えることを主張する。これには、自己利益と従属エージェントの幸福の間の道徳的なトレードオフを評価する能力が含まれる。
論文参考訳（メタデータ） (2025-06-02T15:53:56Z)
Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文参考訳（メタデータ） (2025-05-05T11:33:18Z)
Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society [22.005069513324777]
スーパーアライメントは、AIシステムが人間よりもはるかに賢く、人間の(互換性のある)意図と価値観に一致し続けることを保証します。既存の拡張性のある監視法と弱強一般化法は、AISに面した場合、実質的に不可能で不十分であることを示す可能性がある。外部監視と本質的なプロアクティブアライメントを統合するフレームワークを強調します。
論文参考訳（メタデータ） (2025-04-24T09:53:49Z)
Superintelligence Strategy: Expert Version [64.7113737051525]
AI開発を不安定にすることで、大国間の対立の可能性が高まる可能性がある。スーパーインテリジェンス — ほぼすべての認知タスクにおいて、AIが人間よりもはるかに優れている — が、AI研究者によって期待されている。本稿では,相互保証型AI誤動作の概念を紹介する。
論文参考訳（メタデータ） (2025-03-07T17:53:24Z)
Frontier AI systems have surpassed the self-replicating red line [20.041289047504673]
我々はMetaのLlama31-70B-InstructとAlibabaのQwen25-72B-Instructの2つのAIシステムを評価する。評価中のAIシステムは、十分な自己認識、状況認識、問題解決能力を示す。私たちの発見は、これまで未知の深刻なAIリスクに対するタイムリーな警告です。
論文参考訳（メタデータ） (2024-12-09T15:01:37Z)
Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。 AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文参考訳（メタデータ） (2024-11-04T18:10:10Z)
Combining Theory of Mind and Kindness for Self-Supervised Human-AI Alignment [0.0]
現在のAIモデルは、安全よりもタスク最適化を優先しており、意図しない害のリスクにつながっている。本稿では,これらの諸問題に対処し,競合する目標の整合化を支援することを目的とした,人間に触発された新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-10-21T22:04:44Z)
Trust in AI: Progress, Challenges, and Future Directions [6.724854390957174]
私たちの日常生活における人工知能(AI)システムの利用の増加は、ユーザの視点からAIにおける信頼と不信の重要性を説明してくれます。 AIにおける信頼/不信は規制官の役割を担い、この拡散のレベルを著しく制御することができる。
論文参考訳（メタデータ） (2024-03-12T20:26:49Z)
Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文参考訳（メタデータ） (2023-10-26T17:59:06Z)
A Diachronic Perspective on User Trust in AI under Uncertainty [52.44939679369428]
現代のNLPシステムは、しばしば未分類であり、ユーザの信頼を損なう確実な誤った予測をもたらす。賭けゲームを用いて,信頼を損なう事象に対するユーザの信頼の進化について検討する。
論文参考訳（メタデータ） (2023-10-20T14:41:46Z)
When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。 AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。ルール破りの質問応答からなる新しい課題セットを提案する。
論文参考訳（メタデータ） (2022-10-04T09:04:27Z)
Humble Machines: Attending to the Underappreciated Costs of Misplaced Distrust [20.685627416074286]
我々は、AIに対する公的な不信は、誤分類される可能性があるという確固たる懸念に起因していると主張している。我々は、AIに対する公的な信頼を回復するためには、システムは「信頼を損なう」姿勢を具現化するように設計する必要があると提案する。
論文参考訳（メタデータ） (2022-08-02T08:24:29Z)
On Avoiding Power-Seeking by Artificial Intelligence [93.9264437334683]
私たちは、非常にインテリジェントなAIエージェントの振る舞いと人間の関心を協調する方法を知りません。私は、世界に限られた影響を与え、自律的に力を求めないスマートAIエージェントを構築できるかどうか調査する。
論文参考訳（メタデータ） (2022-06-23T16:56:21Z)
Designing for Responsible Trust in AI Systems: A Communication Perspective [56.80107647520364]
我々は、MATCHと呼ばれる概念モデルを開発するために、技術に対する信頼に関するコミュニケーション理論と文献から引き出す。私たちは、AIシステムの能力として透明性とインタラクションを強調します。我々は、技術クリエーターが使用する適切な方法を特定するのに役立つ要件のチェックリストを提案する。
論文参考訳（メタデータ） (2022-04-29T00:14:33Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文参考訳（メタデータ） (2021-07-12T14:21:46Z)
Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文参考訳（メタデータ） (2020-10-15T03:07:23Z)
On Controllability of AI [1.370633147306388]
我々は、高度なAIを完全に制御できないことを示す証拠だけでなく、議論も提示する。人類の未来とAI研究、そしてAIの安全性とセキュリティについて、AIの制御不能な結果について議論する。
論文参考訳（メタデータ） (2020-07-19T02:49:41Z)
Trustworthy AI [4.670305538969914]
信頼できるAIは、信頼できるコンピューティングとフォーマルな方法の両方に重点を置いている。信頼できるコンピューティングの数十年の進歩にインスパイアされた私たちは、信頼できるプロパティがAIシステムに求めるものを提案する。
論文参考訳（メタデータ） (2020-02-14T22:45:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。