論文の概要: Limitations on Safe, Trusted, Artificial General Intelligence
- arxiv url: http://arxiv.org/abs/2509.21654v1
- Date: Thu, 25 Sep 2025 22:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.050784
- Title: Limitations on Safe, Trusted, Artificial General Intelligence
- Title(参考訳): 安全・信頼・人工知能の限界
- Authors: Rina Panigrahy, Vatsal Sharan,
- Abstract要約: 安全、信頼、人工知能(Artificial General Intelligence、AGI)は、人工知能(AI)システムにおける野心的な目標である。
安全・信頼・AGIの厳密な数学的定義を提案する。
プログラム検証、計画、およびグラフ到達性に関する結果を示す。
- 参考スコア(独自算出の注目度): 14.425238904385074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety, trust and Artificial General Intelligence (AGI) are aspirational goals in artificial intelligence (AI) systems, and there are several informal interpretations of these notions. In this paper, we propose strict, mathematical definitions of safety, trust, and AGI, and demonstrate a fundamental incompatibility between them. We define safety of a system as the property that it never makes any false claims, trust as the assumption that the system is safe, and AGI as the property of an AI system always matching or exceeding human capability. Our core finding is that -- for our formal definitions of these notions -- a safe and trusted AI system cannot be an AGI system: for such a safe, trusted system there are task instances which are easily and provably solvable by a human but not by the system. We note that we consider strict mathematical definitions of safety and trust, and it is possible for real-world deployments to instead rely on alternate, practical interpretations of these notions. We show our results for program verification, planning, and graph reachability. Our proofs draw parallels to G\"odel's incompleteness theorems and Turing's proof of the undecidability of the halting problem, and can be regarded as interpretations of G\"odel's and Turing's results.
- Abstract(参考訳): 安全、信頼、人工知能(AGI)は人工知能(AI)システムにおける実証目標であり、これらの概念の非公式な解釈はいくつかある。
本稿では,安全・信頼・AGIの厳密な数学的定義を提案し,それらの相違を実証する。
我々は、システムの安全性を、不正なクレームを決して起こさない性質として定義し、信頼を、システムが安全であるという仮定として定義し、AIシステムの特性としてAGIは、常に人間の能力に一致するか、超えるかと定義する。
私たちの中核的な発見は、これらの概念の正式な定義 -- 安全で信頼されたAIシステムは、AGIシステムではあり得ない — このような安全で信頼されたシステムには、人間によって容易にかつ確実に解決できるタスクインスタンスがあり、システムによってではない、ということです。
我々は、安全と信頼の厳密な数学的定義を考慮し、現実の展開は、代わりにこれらの概念の代替的で実践的な解釈に頼ることができることに留意する。
プログラム検証、計画、およびグラフ到達性に関する結果を示す。
我々の証明は、G\ "odel's incompleteness theorems and Turing's proof of undecidability of the stoping problem, and as interpretations of G\ "odel's and Turing's results。
関連論文リスト
- The Alignment Trap: Complexity Barriers [0.0]
本稿は、AIアライメントは単に難しいだけでなく、基本的な論理的矛盾に基づくものである、と論じる。
私たちは、すべての必要な安全ルールを列挙できないため、マシンラーニングを正確に使用しています。
このパラドックスは、5つの独立した数学的証明によって確認される。
論文 参考訳(メタデータ) (2025-06-12T02:30:30Z) - Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-05T11:33:18Z) - Towards AI-$45^{\circ}$ Law: A Roadmap to Trustworthy AGI [24.414787444128947]
我々は、信頼できるAGIに向けたバランスのとれたロードマップの指針として、textitAI-textbf$45circ$ Lawを提案する。
このフレームワークは、現在のAI能力と安全性研究のための体系的な分類と階層構造を提供する。
論文 参考訳(メタデータ) (2024-12-08T14:14:16Z) - Towards evaluations-based safety cases for AI scheming [37.399946932069746]
本論では,安全事例がスケジューリングに有効である,という3つの論点を提案する。
第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリングができないと主張するかもしれない。
第二に、AIシステムはスケジューリングによって害を与えることができない、という主張もある。
第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れられない結果を防ぐと論じることもできる。
論文 参考訳(メタデータ) (2024-10-29T17:55:29Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Never trust, always verify : a roadmap for Trustworthy AI? [12.031113181911627]
我々はAIベースのシステムのコンテキストにおける信頼を検証し、AIシステムが信頼に値するものとなることの意味を理解する。
我々は、AIに対する信頼(resp. zero-trust)モデルを提案し、AIシステムの信頼性を保証するために満足すべき特性のセットを提案する。
論文 参考訳(メタデータ) (2022-06-23T21:13:10Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。