論文の概要: Agentic Neurodivergence as a Contingent Solution to the AI Alignment Problem
- arxiv url: http://arxiv.org/abs/2505.02581v1
- Date: Mon, 05 May 2025 11:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.663413
- Title: Agentic Neurodivergence as a Contingent Solution to the AI Alignment Problem
- Title(参考訳): AIアライメント問題に対する随伴解としてのエージェントニューロディバージェンス
- Authors: Alberto Hernández-Espinosa, Felipe S. Abrahão, Olaf Witkowski, Hector Zenil,
- Abstract要約: AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
本稿では、述語論理と計算可能性の基礎に根ざした数学的原理により、完全な整合性を達成することは本質的に達成不可能であることを示す。
- 参考スコア(独自算出の注目度): 1.3905735045377272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The AI alignment problem, which focusses on ensuring that artificial intelligence (AI), including AGI and ASI, systems act according to human values, presents profound challenges. With the progression from narrow AI to Artificial General Intelligence (AGI) and Superintelligence, fears about control and existential risk have escalated. This paper demonstrates that achieving complete alignment is inherently unattainable due to mathematical principles rooted in the foundations of predicate logic and computability, in particular Turing's computational universality, G\"odel's incompleteness and Chaitin's randomness. Instead, we argue that embracing AI misalignment or agent's `neurodivergence' as a contingent strategy, defined as fostering a dynamic ecosystem of competing, partially aligned agents, is a possible only viable path to mitigate risks. Through mathematical proofs and an experimental design, we explore how misalignment may serve and should be promoted as a counterbalancing mechanism to team up with whichever agents are most aligned AI to human values, ensuring that no single system dominates destructively. The main premise of our contribution is that misalignment is inevitable because full AI-human alignment is a mathematical impossibility from Turing-complete systems which we also prove in this paper, a feature then inherited to AGI and ASI systems. We introduce and test `change-of-opinion' attacks based on this kind of perturbation and intervention analysis to study how agents may neutralise friendly or unfriendly AIs through cooperation, competition or malice.
- Abstract(参考訳): AIアライメント問題は、AI(AI)に焦点を合わせ、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)が人間の価値観に従って行動する。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進歩により、制御に対する恐怖と現実的なリスクがエスカレートした。
本稿では、述語論理と計算可能性の基礎に根ざした数学的原理、特にチューリングの計算普遍性、G\"odel's incompletenessとChaitin's randomnessにより、完全アライメントを達成することは本質的に不可能であることを示す。
その代わり、AIのミスアライメントやエージェントの‘神経分割’を受け入れることは、競合する部分的に整合したエージェントの動的なエコシステムを育むものとして定義される、リスクを緩和するための唯一の道である、と我々は主張する。
数学的な証明と実験的な設計を通じて、ミスアライメントがどのように機能し、どのエージェントが人間の価値に最も整合しているAIと組むためのカウンターバランシングメカニズムとして促進されるべきかを探求し、単一のシステムが破壊的に支配されないことを保証する。
我々の貢献の主な前提は、完全なAIと人間のアライメントがチューリング完全系からの数学的不合理性であることから、ミスアライメントは避けられないということだ。
我々は、エージェントが協力、競争、悪意を通じて、友好的または非友好的なAIを中和する方法を研究するために、このような摂動と介入分析に基づく「反対の転換」攻撃を導入し、テストする。
関連論文リスト
- Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.13209023718946]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。
これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。
我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文 参考訳(メタデータ) (2025-02-21T18:28:36Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。