論文の概要: Limitations on Safe, Trusted, Artificial General Intelligence
- arxiv url: http://arxiv.org/abs/2509.21654v1
- Date: Thu, 25 Sep 2025 22:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.050784
- Title: Limitations on Safe, Trusted, Artificial General Intelligence
- Title(参考訳): 安全・信頼・人工知能の限界
- Authors: Rina Panigrahy, Vatsal Sharan,
- Abstract要約: 安全、信頼、人工知能(Artificial General Intelligence、AGI)は、人工知能(AI)システムにおける野心的な目標である。
安全・信頼・AGIの厳密な数学的定義を提案する。
プログラム検証、計画、およびグラフ到達性に関する結果を示す。
- 参考スコア(独自算出の注目度): 14.425238904385074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety, trust and Artificial General Intelligence (AGI) are aspirational goals in artificial intelligence (AI) systems, and there are several informal interpretations of these notions. In this paper, we propose strict, mathematical definitions of safety, trust, and AGI, and demonstrate a fundamental incompatibility between them. We define safety of a system as the property that it never makes any false claims, trust as the assumption that the system is safe, and AGI as the property of an AI system always matching or exceeding human capability. Our core finding is that -- for our formal definitions of these notions -- a safe and trusted AI system cannot be an AGI system: for such a safe, trusted system there are task instances which are easily and provably solvable by a human but not by the system. We note that we consider strict mathematical definitions of safety and trust, and it is possible for real-world deployments to instead rely on alternate, practical interpretations of these notions. We show our results for program verification, planning, and graph reachability. Our proofs draw parallels to G\"odel's incompleteness theorems and Turing's proof of the undecidability of the halting problem, and can be regarded as interpretations of G\"odel's and Turing's results.
- Abstract(参考訳): 安全、信頼、人工知能(AGI)は人工知能(AI)システムにおける実証目標であり、これらの概念の非公式な解釈はいくつかある。
本稿では,安全・信頼・AGIの厳密な数学的定義を提案し,それらの相違を実証する。
我々は、システムの安全性を、不正なクレームを決して起こさない性質として定義し、信頼を、システムが安全であるという仮定として定義し、AIシステムの特性としてAGIは、常に人間の能力に一致するか、超えるかと定義する。
私たちの中核的な発見は、これらの概念の正式な定義 -- 安全で信頼されたAIシステムは、AGIシステムではあり得ない — このような安全で信頼されたシステムには、人間によって容易にかつ確実に解決できるタスクインスタンスがあり、システムによってではない、ということです。
我々は、安全と信頼の厳密な数学的定義を考慮し、現実の展開は、代わりにこれらの概念の代替的で実践的な解釈に頼ることができることに留意する。
プログラム検証、計画、およびグラフ到達性に関する結果を示す。
我々の証明は、G\ "odel's incompleteness theorems and Turing's proof of undecidability of the stoping problem, and as interpretations of G\ "odel's and Turing's results。
関連論文リスト
- Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。
我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。
私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文 参考訳(メタデータ) (2025-08-12T09:42:56Z) - The Alignment Trap: Complexity Barriers [0.0]
本稿は、AIアライメントは単に難しいだけでなく、基本的な論理的矛盾に基づくものである、と論じる。
私たちは、すべての必要な安全ルールを列挙できないため、マシンラーニングを正確に使用しています。
このパラドックスは、5つの独立した数学的証明によって確認される。
論文 参考訳(メタデータ) (2025-06-12T02:30:30Z) - Neurodivergent Influenceability as a Contingent Solution to the AI Alignment Problem [1.3905735045377272]
AIアライメント問題は、人工知能(AI)システムが人間の価値観に従って行動することを保証することに重点を置いている。
狭義のAIからAI(Artificial General Intelligence, AGI)やスーパーインテリジェンス(Superintelligence, 超知能)への進化に伴い、制御に対する恐怖と現実的なリスクがエスカレートした。
ここでは、避けられないAIのミスアライメントを受け入れることが、競合するエージェントの動的なエコシステムを育むための緊急戦略であるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-05T11:33:18Z) - Towards A Litmus Test for Common Sense [5.280511830552275]
この論文は、安全で有益な人工知能への道を構想するシリーズの第2弾となる。
我々は,最小の事前知識制約と対角的あるいはゴドネル的な議論を組み合わせた公理的アプローチを用いて,より形式的なリトマステストを提案する。
論文 参考訳(メタデータ) (2025-01-17T02:02:12Z) - Towards AI-$45^{\circ}$ Law: A Roadmap to Trustworthy AGI [24.414787444128947]
我々は、信頼できるAGIに向けたバランスのとれたロードマップの指針として、textitAI-textbf$45circ$ Lawを提案する。
このフレームワークは、現在のAI能力と安全性研究のための体系的な分類と階層構造を提供する。
論文 参考訳(メタデータ) (2024-12-08T14:14:16Z) - Towards evaluations-based safety cases for AI scheming [37.399946932069746]
本論では,安全事例がスケジューリングに有効である,という3つの論点を提案する。
第一に、フロンティアAIシステムの開発者は、AIシステムはスケジューリングができないと主張するかもしれない。
第二に、AIシステムはスケジューリングによって害を与えることができない、という主張もある。
第三に、AIシステムが意図的にそれらを覆そうと試みても、AIシステムを取り巻く制御手段が受け入れられない結果を防ぐと論じることもできる。
論文 参考訳(メタデータ) (2024-10-29T17:55:29Z) - Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。
人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。
これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文 参考訳(メタデータ) (2024-10-10T17:38:38Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z) - Provably safe systems: the only path to controllable AGI [0.0]
人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。
われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
論文 参考訳(メタデータ) (2023-09-05T03:42:46Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Never trust, always verify : a roadmap for Trustworthy AI? [12.031113181911627]
我々はAIベースのシステムのコンテキストにおける信頼を検証し、AIシステムが信頼に値するものとなることの意味を理解する。
我々は、AIに対する信頼(resp. zero-trust)モデルを提案し、AIシステムの信頼性を保証するために満足すべき特性のセットを提案する。
論文 参考訳(メタデータ) (2022-06-23T21:13:10Z) - Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。
これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文 参考訳(メタデータ) (2022-01-26T18:53:09Z) - Formalizing Trust in Artificial Intelligence: Prerequisites, Causes and
Goals of Human Trust in AI [55.4046755826066]
我々は、社会学の対人信頼(すなわち、人間の信頼)に着想を得た信頼のモデルについて議論する。
ユーザとAIの間の信頼は、暗黙的あるいは明示的な契約が保持する信頼である。
我々は、信頼できるAIの設計方法、信頼が浮かび上がったかどうか、保証されているかどうかを評価する方法について論じる。
論文 参考訳(メタデータ) (2020-10-15T03:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。