論文の概要: Agentic Neurodivergence as a Contingent Solution to the AI Alignment Problem
- arxiv url: http://arxiv.org/abs/2505.02581v2
- Date: Thu, 08 May 2025 03:02:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-09 13:13:47.805524
- Title: Agentic Neurodivergence as a Contingent Solution to the AI Alignment Problem
- Title(参考訳): AIアライメント問題に対する随伴解としてのエージェントニューロディバージェンス
- Authors: Alberto Hernández-Espinosa, Felipe S. Abrahão, Olaf Witkowski, Hector Zenil,
- Abstract要約: 我々の貢献の主な前提は、完全なAIと人間のアライメントがチューリング完全系から数学的に不可能であるため、ミスアライメントは避けられないということだ。
我々は,このような摂動と介入分析に基づいて,エージェントが協力や競争を通じて,親しみやすいAIや不親切なAIを中和する方法を検証し,オピニオン・アタックを導入し,検証する。
オープンモデルはより多様であり、プロプライエタリなモデルで実装されたガードレールは、エージェントの意見や感情の変化の範囲をある程度制御し制御することに成功している可能性が高いことを示す。
- 参考スコア(独自算出の注目度): 1.3905735045377272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The AI alignment problem, which focusses on ensuring that artificial intelligence (AI), including AGI and ASI, systems act according to human values, presents profound challenges. With the progression from narrow AI to Artificial General Intelligence (AGI) and Superintelligence, fears about control and existential risk have escalated. Here, we investigate whether embracing inevitable AI misalignment can be a contingent strategy to foster a dynamic ecosystem of competing agents as a viable path to steer them in more human-aligned trends and mitigate risks. We explore how misalignment may serve and should be promoted as a counterbalancing mechanism to team up with whichever agents are most aligned to human interests, ensuring that no single system dominates destructively. The main premise of our contribution is that misalignment is inevitable because full AI-human alignment is a mathematical impossibility from Turing-complete systems, which we also offer as a proof in this contribution, a feature then inherited to AGI and ASI systems. We introduce and test change-of-opinion attacks based on this kind of perturbation and intervention analysis to study how agents may neutralise friendly or unfriendly AIs through cooperation and competition. We show that open models are more diverse and that most likely guardrails implemented in proprietary models are successful at steering and controlling to some extent the agents' range of opinion and sentiment change with possible positive and negative consequences in what we believe are signs of a neuro-symbolic approach even if shallow.
- Abstract(参考訳): AIアライメント問題は、AI(AI)に焦点を合わせ、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)が人間の価値観に従って行動する。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進歩により、制御に対する恐怖と現実的なリスクがエスカレートした。
そこで本研究では,AIのミスアライメントの回避が,競合するエージェントのダイナミックなエコシステムを,より人道的な傾向とリスク軽減に活用するための有効な方法として育むための,一貫した戦略であるかどうかを検討する。
我々は、不整合がいかに機能するかを探求し、どのエージェントが人間の利益に最も適しているかを組むための反バランスメカニズムとして推進されるべきであり、単一のシステムが破壊的に支配されることを確実にする。
我々の貢献の主な前提は、完全なAIと人間のアライメントがチューリング完全システムからの数学的不合理性であるため、ミスアライメントは避けられないということだ。
我々は,このような摂動と介入分析に基づいて,エージェントが協力や競争を通じて,親しみやすいAIや不親切なAIを中和する方法を検証し,オピニオン・アタックを導入し,検証する。
オープンモデルはより多様であり、プロプライエタリなモデルで実装されたガードレールは、エージェントの意見や感情の変化の範囲をある程度制御し、たとえ浅いとしても、ニューロシンボリックアプローチの兆候であると考えるものに対して、肯定的かつ否定的な結果をもたらす可能性があることを示す。
関連論文リスト
- Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.13209023718946]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。
これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。
我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文 参考訳(メタデータ) (2025-02-21T18:28:36Z) - Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。
AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。
メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文 参考訳(メタデータ) (2024-11-04T18:10:10Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。
我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。
我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文 参考訳(メタデータ) (2024-07-30T21:34:04Z) - AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。
AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。
我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文 参考訳(メタデータ) (2023-10-30T15:52:15Z) - Intent-aligned AI systems deplete human agency: the need for agency
foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。
我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文 参考訳(メタデータ) (2023-05-30T17:14:01Z) - Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。
偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。
問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-04-16T11:22:59Z) - The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。
敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文 参考訳(メタデータ) (2021-06-26T10:50:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。