論文の概要: Agentic Neurodivergence as a Contingent Solution to the AI Alignment Problem
- arxiv url: http://arxiv.org/abs/2505.02581v1
- Date: Mon, 05 May 2025 11:33:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.663413
- Title: Agentic Neurodivergence as a Contingent Solution to the AI Alignment Problem
- Title(参考訳): AIアライメント問題に対する随伴解としてのエージェントニューロディバージェンス
- Authors: Alberto Hernández-Espinosa, Felipe S. Abrahão, Olaf Witkowski, Hector Zenil,
- Abstract要約: AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
本稿では、述語論理と計算可能性の基礎に根ざした数学的原理により、完全な整合性を達成することは本質的に達成不可能であることを示す。
- 参考スコア(独自算出の注目度): 1.3905735045377272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The AI alignment problem, which focusses on ensuring that artificial intelligence (AI), including AGI and ASI, systems act according to human values, presents profound challenges. With the progression from narrow AI to Artificial General Intelligence (AGI) and Superintelligence, fears about control and existential risk have escalated. This paper demonstrates that achieving complete alignment is inherently unattainable due to mathematical principles rooted in the foundations of predicate logic and computability, in particular Turing's computational universality, G\"odel's incompleteness and Chaitin's randomness. Instead, we argue that embracing AI misalignment or agent's `neurodivergence' as a contingent strategy, defined as fostering a dynamic ecosystem of competing, partially aligned agents, is a possible only viable path to mitigate risks. Through mathematical proofs and an experimental design, we explore how misalignment may serve and should be promoted as a counterbalancing mechanism to team up with whichever agents are most aligned AI to human values, ensuring that no single system dominates destructively. The main premise of our contribution is that misalignment is inevitable because full AI-human alignment is a mathematical impossibility from Turing-complete systems which we also prove in this paper, a feature then inherited to AGI and ASI systems. We introduce and test `change-of-opinion' attacks based on this kind of perturbation and intervention analysis to study how agents may neutralise friendly or unfriendly AIs through cooperation, competition or malice.
- Abstract(参考訳): AIアライメント問題は、AI(AI)に焦点を合わせ、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)が人間の価値観に従って行動する。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進歩により、制御に対する恐怖と現実的なリスクがエスカレートした。
本稿では、述語論理と計算可能性の基礎に根ざした数学的原理、特にチューリングの計算普遍性、G\"odel's incompletenessとChaitin's randomnessにより、完全アライメントを達成することは本質的に不可能であることを示す。
その代わり、AIのミスアライメントやエージェントの‘神経分割’を受け入れることは、競合する部分的に整合したエージェントの動的なエコシステムを育むものとして定義される、リスクを緩和するための唯一の道である、と我々は主張する。
数学的な証明と実験的な設計を通じて、ミスアライメントがどのように機能し、どのエージェントが人間の価値に最も整合しているAIと組むためのカウンターバランシングメカニズムとして促進されるべきかを探求し、単一のシステムが破壊的に支配されないことを保証する。
我々の貢献の主な前提は、完全なAIと人間のアライメントがチューリング完全系からの数学的不合理性であることから、ミスアライメントは避けられないということだ。
我々は、エージェントが協力、競争、悪意を通じて、友好的または非友好的なAIを中和する方法を研究するために、このような摂動と介入分析に基づく「反対の転換」攻撃を導入し、テストする。
関連論文リスト
- When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems [78.04679174291329]
悪意のあるマルチエージェントシステム(MAS)のリスクをシミュレートするための概念実証手法を提案する。
この枠組みを、誤情報拡散とeコマース詐欺という2つのリスクの高い分野に適用する。
その結果,分散システムの方が,集中型システムよりも悪意ある行動を実行するのに効果的であることが示唆された。
論文 参考訳(メタデータ) (2025-07-19T15:17:30Z) - AI Automatons: AI Systems Intended to Imitate Humans [54.19152688545896]
人々の行動、仕事、能力、類似性、または人間性を模倣するように設計されたAIシステムが増加している。
このようなAIシステムの研究、設計、展開、可用性は、幅広い法的、倫理的、その他の社会的影響に対する懸念を喚起している。
論文 参考訳(メタデータ) (2025-03-04T03:55:38Z) - Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.13209023718946]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。
これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。
我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文 参考訳(メタデータ) (2025-02-21T18:28:36Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - Societal Adaptation to Advanced AI [1.2607853680700076]
先進的なAIシステムからリスクを管理する既存の戦略は、AIシステムの開発方法と拡散方法に影響を与えることに集中することが多い。
我々は、先進的なAIへの社会適応の増大という補完的なアプローチを奨励する。
我々は、AIシステムの潜在的に有害な使用を回避し、防御し、治療する適応的介入を特定するのに役立つ概念的枠組みを導入する。
論文 参考訳(メタデータ) (2024-05-16T17:52:12Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。
このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。
現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文 参考訳(メタデータ) (2023-10-26T17:59:06Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - Examining the Differential Risk from High-level Artificial Intelligence
and the Question of Control [0.0]
将来のAI能力の範囲と範囲は、依然として重要な不確実性である。
AIの不透明な意思決定プロセスの統合と監視の程度には懸念がある。
本研究では、AIリスクをモデル化し、代替先分析のためのテンプレートを提供する階層的な複雑なシステムフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-06T15:46:02Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z) - Adversarial Interaction Attack: Fooling AI to Misinterpret Human
Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。
骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。
本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文 参考訳(メタデータ) (2021-01-17T16:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。