Fugu-MT 論文翻訳(概要): Provably safe systems: the only path to controllable AGI

論文の概要: Provably safe systems: the only path to controllable AGI

arxiv url: http://arxiv.org/abs/2309.01933v1
Date: Tue, 5 Sep 2023 03:42:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-06 16:34:06.825686
Title: Provably safe systems: the only path to controllable AGI
Title（参考訳）: 確実に安全なシステム: 制御可能なagiへの唯一の道
Authors: Max Tegmark (MIT), Steve Omohundro (Beneficial AI Research)
Abstract要約: 人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。われわれは、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We describe a path to humanity safely thriving with powerful Artificial General Intelligences (AGIs) by building them to provably satisfy human-specified requirements. We argue that this will soon be technically feasible using advanced AI for formal verification and mechanistic interpretability. We further argue that it is the only path which guarantees safe controlled AGI. We end with a list of challenge problems whose solution would contribute to this positive outcome and invite readers to join in this work.
Abstract（参考訳）: 人間の要求を満たすように構築することで、強力な人工知能(AGI)で安全に繁栄する人類への道について述べる。我々は、これが間もなく技術的に実現可能で、高度なAIを使って正式な検証と機械的解釈が可能であると論じている。また、安全制御AGIを保証する唯一の経路であると主張する。最終的には、この肯定的な結果にソリューションが貢献する課題のリストを作成し、読者をこの作業に参加させます。

関連論文リスト

Robust AI Security and Alignment: A Sisyphean Endeavor? [0.03691941137525625]
この原稿は、Gdelの不完全性定理をAIに拡張することにより、AIセキュリティとアライメントの堅牢性に関する情報理論上の制限を確立する。これらの制限を認識し、それらがもたらす課題に備えることが、AIテクノロジの採用に責任を負う上で極めて重要である。
論文参考訳（メタデータ） (2025-12-10T21:44:10Z)
Limitations on Safe, Trusted, Artificial General Intelligence [14.425238904385074]
安全、信頼、人工知能(Artificial General Intelligence、AGI)は、人工知能(AI)システムにおける野心的な目標である。安全・信頼・AGIの厳密な数学的定義を提案する。プログラム検証、計画、およびグラフ到達性に関する結果を示す。
論文参考訳（メタデータ） (2025-09-25T22:16:38Z)
Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文参考訳（メタデータ） (2025-08-12T09:42:56Z)
Superintelligent Agents Pose Catastrophic Risks: Can Scientist AI Offer a Safer Path? [37.13209023718946]
未確認のAI機関は、公共の安全とセキュリティに重大なリスクをもたらす。これらのリスクが現在のAIトレーニング方法からどのように生じるかについて議論する。我々は,非エージェント型AIシステムの開発をさらに進めるために,コアビルディングブロックを提案する。
論文参考訳（メタデータ） (2025-02-21T18:28:36Z)
Towards A Litmus Test for Common Sense [5.280511830552275]
この論文は、安全で有益な人工知能への道を構想するシリーズの第2弾となる。我々は,最小の事前知識制約と対角的あるいはゴドネル的な議論を組み合わせた公理的アプローチを用いて,より形式的なリトマステストを提案する。
論文参考訳（メタデータ） (2025-01-17T02:02:12Z)
Imagining and building wise machines: The centrality of AI metacognition [78.76893632793497]
AIシステムは知恵を欠いている。 AI研究はタスクレベルの戦略に焦点を当てているが、メタ認知はAIシステムでは未発達である。メタ認知機能をAIシステムに統合することは、その堅牢性、説明可能性、協力性、安全性を高めるために不可欠である。
論文参考訳（メタデータ） (2024-11-04T18:10:10Z)
Using AI Alignment Theory to understand the potential pitfalls of regulatory frameworks [55.2480439325792]
本稿では、欧州連合の人工知能法(EU AI法)を批判的に検討する。人工知能における技術的アライメントの潜在的な落とし穴に焦点を当てたアライメント理論(AT)研究からの洞察を利用する。これらの概念をEU AI Actに適用すると、潜在的な脆弱性と規制を改善するための領域が明らかになる。
論文参考訳（メタデータ） (2024-10-10T17:38:38Z)
Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文参考訳（メタデータ） (2024-05-10T17:38:32Z)
AI Safety: Necessary, but insufficient and possibly problematic [1.6797508081737678]
この記事では、AI安全性に関する最近の誇大広告について批判的に考察する。 AIの安全性」とは実際に何を意味するのかを考察し、AIの安全性のデジタルフットプリントが持つ支配的な概念を概説する。私たちは、AIの安全性が、悪用され有害なAIに安全を害することで、構造的危害を助長するAIを正規化する方法に関する懸念を共有します。
論文参考訳（メタデータ） (2024-03-26T06:18:42Z)
Explainable AI for Safe and Trustworthy Autonomous Driving: A Systematic Review [12.38351931894004]
本稿では,安全かつ信頼性の高い自動運転のための説明可能な手法に関する,最初の体系的な文献レビューを紹介する。我々は、ADにおける安全で信頼性の高いAIに対するXAIの5つの重要な貢献を特定し、それらは解釈可能な設計、解釈可能な代理モデル、解釈可能なモニタリング、補助的な説明、解釈可能な検証である。我々は、これらのコントリビューションを統合するためにSafeXと呼ばれるモジュラーフレームワークを提案し、同時にAIモデルの安全性を確保しながら、ユーザへの説明提供を可能にした。
論文参考訳（メタデータ） (2024-02-08T09:08:44Z)
Seamful XAI: Operationalizing Seamful Design in Explainable AI [59.89011292395202]
AIシステムのミスは必然的であり、技術的制限と社会技術的ギャップの両方から生じる。本稿では, 社会工学的・インフラ的ミスマッチを明らかにすることにより, シームレスな設計がAIの説明可能性を高めることを提案する。 43人のAI実践者と実際のエンドユーザでこのプロセスを探求します。
論文参考訳（メタデータ） (2022-11-12T21:54:05Z)
When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。 AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。ルール破りの質問応答からなる新しい課題セットを提案する。
論文参考訳（メタデータ） (2022-10-04T09:04:27Z)
Cybertrust: From Explainable to Actionable and Interpretable AI (AI2) [58.981120701284816]
Actionable and Interpretable AI (AI2)は、AIレコメンデーションにユーザの信頼度を明確に定量化し視覚化する。これにより、AIシステムの予測を調べてテストすることで、システムの意思決定に対する信頼の基盤を確立することができる。
論文参考訳（メタデータ） (2022-01-26T18:53:09Z)
Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文参考訳（メタデータ） (2021-07-12T14:21:46Z)
On Controllability of AI [1.370633147306388]
我々は、高度なAIを完全に制御できないことを示す証拠だけでなく、議論も提示する。人類の未来とAI研究、そしてAIの安全性とセキュリティについて、AIの制御不能な結果について議論する。
論文参考訳（メタデータ） (2020-07-19T02:49:41Z)
AI Failures: A Review of Underlying Issues [0.0]
私たちは、概念化、設計、デプロイメントの欠陥を考慮して、AIの失敗に焦点を当てています。 AIシステムは、AIシステムの設計において、欠落とコミッショニングエラーのために失敗する。 AIシステムは、事実上道徳的な判断を下すことが求められる状況で、かなり失敗する可能性が高い。
論文参考訳（メタデータ） (2020-07-18T15:31:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。