Fugu-MT 論文翻訳(概要): Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem

論文の概要: Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem

arxiv url: http://arxiv.org/abs/2505.02581v3
Date: Thu, 15 May 2025 01:23:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-16 14:06:36.549075
Title: Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem
Title（参考訳）: AIアライメント問題に対する継続解としてのニューロディバージェント影響性
Authors: Alberto Hernández-Espinosa, Felipe S. Abrahão, Olaf Witkowski, Hector Zenil,
Abstract要約: AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
参考スコア（独自算出の注目度）: 1.3905735045377272
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The AI alignment problem, which focusses on ensuring that artificial intelligence (AI), including AGI and ASI, systems act according to human values, presents profound challenges. With the progression from narrow AI to Artificial General Intelligence (AGI) and Superintelligence, fears about control and existential risk have escalated. Here, we investigate whether embracing inevitable AI misalignment can be a contingent strategy to foster a dynamic ecosystem of competing agents as a viable path to steer them in more human-aligned trends and mitigate risks. We explore how misalignment may serve and should be promoted as a counterbalancing mechanism to team up with whichever agents are most aligned to human interests, ensuring that no single system dominates destructively. The main premise of our contribution is that misalignment is inevitable because full AI-human alignment is a mathematical impossibility from Turing-complete systems, which we also offer as a proof in this contribution, a feature then inherited to AGI and ASI systems. We introduce a change-of-opinion attack test based on perturbation and intervention analysis to study how humans and agents may change or neutralise friendly and unfriendly AIs through cooperation and competition. We show that open models are more diverse and that most likely guardrails implemented in proprietary models are successful at controlling some of the agents' range of behaviour with positive and negative consequences while closed systems are more steerable and can also be used against proprietary AI systems. We also show that human and AI intervention has different effects hence suggesting multiple strategies.
Abstract（参考訳）: AIアライメント問題は、AI(AI)に焦点を合わせ、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)、AI(AI)が人間の価値観に従って行動する。狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。そこで本研究では,AIのミスアライメントの回避が,競合するエージェントのダイナミックなエコシステムを,より人道的な傾向とリスク軽減に活用するための有効な方法として育むための,一貫した戦略であるかどうかを検討する。我々は、不整合がいかに機能するかを探求し、どのエージェントが人間の利益に最も適しているかを組むための反バランスメカニズムとして推進されるべきであり、単一のシステムが破壊的に支配されることを確実にする。我々の貢献の主な前提は、完全なAIと人間のアライメントがチューリング完全システムからの数学的不合理性であるため、ミスアライメントは避けられないということだ。我々は,人間やエージェントが協力や競争を通じて,友好的かつ非友好的なAIをどのように変えるか,あるいは中和するかを研究するために,摂動と介入分析に基づく対人攻撃テストを導入する。オープンモデルはより多様であり、プロプライエタリなモデルで実装されたガードレールは、クローズドシステムはよりステアブルであり、プロプライエタリなAIシステムに対しても使用することができる一方で、ポジティブでネガティブな結果を伴うエージェントの行動範囲の制御に成功していることを示す。また、人間とAIの介入には異なる効果があることが示され、それによって複数の戦略が示唆される。

関連論文リスト

When Autonomy Goes Rogue: Preparing for Risks of Multi-Agent Collusion in Social Systems [78.04679174291329]
悪意のあるマルチエージェントシステム(MAS)のリスクをシミュレートするための概念実証手法を提案する。この枠組みを、誤情報拡散とeコマース詐欺という2つのリスクの高い分野に適用する。その結果,分散システムの方が,集中型システムよりも悪意ある行動を実行するのに効果的であることが示唆された。
論文参考訳（メタデータ） (2025-07-19T15:17:30Z)
AI Automatons: AI Systems Intended to Imitate Humans [54.19152688545896]
人々の行動、仕事、能力、類似性、または人間性を模倣するように設計されたAIシステムが増加している。このようなAIシステムの研究、設計、展開、可用性は、幅広い法的、倫理的、その他の社会的影響に対する懸念を喚起している。
論文参考訳（メタデータ） (2025-03-04T03:55:38Z)
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.13209023718946]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文参考訳（メタデータ） (2025-02-21T18:28:36Z)
Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。 AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文参考訳（メタデータ） (2024-11-04T18:10:10Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
Rolling in the deep of cognitive and AI biases [1.556153237434314]
我々は、AIが設計、開発、デプロイされる状況とは切り離せない社会技術システムとして理解する必要があると論じる。我々は、人間の認知バイアスがAIフェアネスの概観の中核となる急進的な新しい方法論に従うことで、この問題に対処する。我々は、人間にAIバイアスを正当化する新しいマッピングを導入し、関連する公正度と相互依存を検出する。
論文参考訳（メタデータ） (2024-07-30T21:34:04Z)
Societal Adaptation to Advanced AI [1.2607853680700076]
先進的なAIシステムからリスクを管理する既存の戦略は、AIシステムの開発方法と拡散方法に影響を与えることに集中することが多い。我々は、先進的なAIへの社会適応の増大という補完的なアプローチを奨励する。我々は、AIシステムの潜在的に有害な使用を回避し、防御し、治療する適応的介入を特定するのに役立つ概念的枠組みを導入する。
論文参考訳（メタデータ） (2024-05-16T17:52:12Z)
AI Alignment: A Comprehensive Survey [69.61425542486275]
AIアライメントは、AIシステムが人間の意図や価値観に沿って振る舞うようにすることを目的としている。 AIアライメントの重要な目的として、ロバストネス、解釈可能性、制御可能性、倫理という4つの原則を特定します。我々は、現在のアライメント研究を、前方アライメントと後方アライメントの2つの重要なコンポーネントに分解する。
論文参考訳（メタデータ） (2023-10-30T15:52:15Z)
Managing extreme AI risks amid rapid progress [171.05448842016125]
我々は、大規模社会被害、悪意のある使用、自律型AIシステムに対する人間の制御の不可逆的な喪失を含むリスクについて説明する。このようなリスクがどのように発生し、どのように管理するかについては、合意の欠如があります。現在のガバナンスイニシアチブには、誤用や無謀を防ぎ、自律システムにほとんど対処するメカニズムや制度が欠けている。
論文参考訳（メタデータ） (2023-10-26T17:59:06Z)
Intent-aligned AI systems deplete human agency: the need for agency foundations research in AI safety [2.3572498744567127]
人間の意図の一致は、安全なAIシステムには不十分である、と我々は主張する。我々は、人類の長期的機関の保存がより堅牢な標準であると論じている。
論文参考訳（メタデータ） (2023-05-30T17:14:01Z)
Fairness in AI and Its Long-Term Implications on Society [68.8204255655161]
AIフェアネスを詳しく見て、AIフェアネスの欠如が、時間の経過とともにバイアスの深化につながるかを分析します。偏りのあるモデルが特定のグループに対してよりネガティブな現実的な結果をもたらすかについて議論する。問題が続くと、他のリスクとの相互作用によって強化され、社会不安という形で社会に深刻な影響を及ぼす可能性がある。
論文参考訳（メタデータ） (2023-04-16T11:22:59Z)
Examining the Differential Risk from High-level Artificial Intelligence and the Question of Control [0.0]
将来のAI能力の範囲と範囲は、依然として重要な不確実性である。 AIの不透明な意思決定プロセスの統合と監視の程度には懸念がある。本研究では、AIリスクをモデル化し、代替先分析のためのテンプレートを提供する階層的な複雑なシステムフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-06T15:46:02Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
The Feasibility and Inevitability of Stealth Attacks [63.14766152741211]
我々は、攻撃者が汎用人工知能システムにおける決定を制御できる新しい敵の摂動について研究する。敵対的なデータ修正とは対照的に、ここで考慮する攻撃メカニズムには、AIシステム自体の変更が含まれる。
論文参考訳（メタデータ） (2021-06-26T10:50:07Z)
Adversarial Interaction Attack: Fooling AI to Misinterpret Human Intentions [46.87576410532481]
現在の大きな成功にもかかわらず、ディープラーニングベースのAIシステムは、微妙な敵対的ノイズによって容易に騙されることを示した。骨格に基づくヒトの相互作用のケーススタディに基づき、相互作用に対する新しい敵対的攻撃を提案する。本研究では、安全クリティカルなアプリケーションにAIシステムをデプロイする際に慎重に対処する必要があるAIと人間との相互作用ループにおける潜在的なリスクを強調します。
論文参考訳（メタデータ） (2021-01-17T16:23:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。