Fugu-MT 論文翻訳(概要): Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

論文の概要: Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems

arxiv url: http://arxiv.org/abs/2405.06624v1
Date: Fri, 10 May 2024 17:38:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-13 15:08:38.945566
Title: Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems
Title（参考訳）: 安全なAIの保証に向けて:ロバストで信頼性の高いAIシステムを保証するフレームワーク
Authors: David "davidad" Dalrymple, Joar Skalse, Yoshua Bengio, Stuart Russell, Max Tegmark, Sanjit Seshia, Steve Omohundro, Christian Szegedy, Ben Goldhaber, Nora Ammann, Alessandro Abate, Joe Halpern, Clark Barrett, Ding Zhao, Tan Zhi-Xuan, Jeannette Wing, Joshua Tenenbaum,
Abstract要約: 我々は、AI安全性に対する一連のアプローチを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
参考スコア（独自算出の注目度）: 88.80306881112313
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensuring that AI systems reliably and robustly avoid harmful or dangerous behaviours is a crucial challenge, especially for AI systems with a high degree of autonomy and general intelligence, or systems used in safety-critical contexts. In this paper, we will introduce and define a family of approaches to AI safety, which we will refer to as guaranteed safe (GS) AI. The core feature of these approaches is that they aim to produce AI systems which are equipped with high-assurance quantitative safety guarantees. This is achieved by the interplay of three core components: a world model (which provides a mathematical description of how the AI system affects the outside world), a safety specification (which is a mathematical description of what effects are acceptable), and a verifier (which provides an auditable proof certificate that the AI satisfies the safety specification relative to the world model). We outline a number of approaches for creating each of these three core components, describe the main technical challenges, and suggest a number of potential solutions to them. We also argue for the necessity of this approach to AI safety, and for the inadequacy of the main alternative approaches.
Abstract（参考訳）: AIシステムは、特に高度な自律性と汎用性を持つAIシステムや、安全クリティカルなコンテキストで使用されるシステムにとって、安全で堅牢に有害な行動や危険な行動を避けることが重要な課題である。本稿では、安全保証(GS)AIとして言及する、AI安全性に対するアプローチのファミリーを紹介し、定義する。これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。これは、世界モデル(AIシステムが外界にどう影響するかを数学的に記述する)、安全仕様(どのような効果が受け入れられるかを数学的に記述する)、検証(AIが世界モデルに対して安全仕様を満足する監査可能な証明証明書を提供する)の3つのコアコンポーネントの相互作用によって達成される。これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。また、AIの安全性に対するこのアプローチの必要性や、主要な代替アプローチの不十分さについても議論しています。

関連論文リスト

Frontier AI Auditing: Toward Rigorous Third-Party Assessment of Safety and Security Practices at Leading AI Companies [57.521647436515785]
私たちはフロンティアAIの監査を、フロンティアAI開発者の安全とセキュリティに関する主張の厳格な第三者による検証として定義しています。本稿では,AI保証レベル(AAL-1からAAL-4)について紹介する。
論文参考訳（メタデータ） (2026-01-16T18:44:09Z)
Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance [211.5823259429128]
本研究は,本質的セキュリティ,デリバティブ・セキュリティ,社会倫理の3つの柱を中心に構築された,技術的・社会的次元を統合した包括的枠組みを提案する。我々は,(1)防衛が進化する脅威に対して失敗する一般化ギャップ,(2)現実世界のリスクを無視する不適切な評価プロトコル,(3)矛盾する監視につながる断片的な規制,の3つの課題を特定する。私たちのフレームワークは、研究者、エンジニア、政策立案者に対して、堅牢でセキュアなだけでなく、倫理的に整合性があり、公的な信頼に値するAIシステムを開発するための実用的なガイダンスを提供します。
論文参考訳（メタデータ） (2025-08-12T09:42:56Z)
The Singapore Consensus on Global AI Safety Research Priorities [128.58674892183657]
2025年シンガポールAI会議(SCAI: International Scientific Exchange on AI Safety)は、この分野での研究を支援することを目的としている。ヨシュア・ベンジオが議長を務める国際AI安全レポート(AI Safety Report)は、33の政府によって支援されている。レポートは、AI安全研究ドメインを3つのタイプに分類する。信頼に値するAIシステム(開発)作成の課題、リスク評価の課題(評価)、デプロイメント後の監視と介入の課題(会議)。
論文参考訳（メタデータ） (2025-06-25T17:59:50Z)
Towards provable probabilistic safety for scalable embodied AI systems [79.31011047593492]
エンボディードAIシステムは、様々なアプリケーションでますます普及している。複雑な運用環境での安全性確保は依然として大きな課題である。このパースペクティブは、安全で大規模に実施されたAIシステムを安全クリティカルなアプリケーションに採用するための道筋を提供する。
論文参考訳（メタデータ） (2025-06-05T15:46:25Z)
Security-First AI: Foundations for Robust and Trustworthy Systems [0.0]
この原稿は、AIセキュリティは基礎的なレイヤとして優先順位付けされなければならないことを示唆している。私たちは、信頼できるレジリエントなAIシステムを実現するために、セキュリティ優先のアプローチを主張します。
論文参考訳（メタデータ） (2025-04-17T22:53:01Z)
An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文参考訳（メタデータ） (2025-04-02T15:59:31Z)
AI threats to national security can be countered through an incident regime [55.2480439325792]
我々は、AIシステムからの潜在的な国家安全保障脅威に対抗することを目的とした、法的に義務付けられたポストデプロイAIインシデントシステムを提案する。提案したAIインシデント体制は,3段階に分けられる。第1フェーズは,‘AIインシデント’とみなすような,新たな運用方法を中心に展開される。第2フェーズと第3フェーズでは、AIプロバイダが政府機関にインシデントを通知し、政府機関がAIプロバイダのセキュリティおよび安全手順の修正に関与するべきだ、と説明されている。
論文参考訳（メタデータ） (2025-03-25T17:51:50Z)
The BIG Argument for AI Safety Cases [4.0675753909100445]
BIGの議論は、さまざまな能力、自律性、臨界性を持つAIシステムの安全ケースを構築するためのシステム全体のアプローチを採用する。安全性と、プライバシーや株式といった他の重要な倫理的問題に対処することでバランスがとれる。安全保証の社会的、倫理的、技術的側面を、追跡可能で説明可能な方法でまとめることによって統合される。
論文参考訳（メタデータ） (2025-03-12T11:33:28Z)
AI Safety for Everyone [3.440579243843689]
AIの安全性に関する最近の議論と研究は、AIの安全性と高度なAIシステムからの現実的リスクとの深いつながりを強調している。このフレーミングは、AIの安全性にコミットしているが、異なる角度から分野にアプローチする研究者や実践者を排除する可能性がある。私たちは、現在のAIシステムに対する即時的で実践的な懸念に対処する、数多くの具体的な安全作業を見つけました。
論文参考訳（メタデータ） (2025-02-13T13:04:59Z)
AI Safety is Stuck in Technical Terms -- A System Safety Response to the International AI Safety Report [0.0]
安全は、支配的なAIガバナンスの取り組みが形成される中心的な価値となっている。このレポートは、汎用AIと利用可能な技術的緩和アプローチの安全性リスクに焦点を当てている。システム安全性の規律は、何十年もの間、ソフトウェアベースのシステムの安全性リスクに対処してきた。
論文参考訳（メタデータ） (2025-02-05T22:37:53Z)
Position: A taxonomy for reporting and describing AI security incidents [57.98317583163334]
AIシステムのセキュリティインシデントを記述し報告するためには、具体的が必要である、と我々は主張する。非AIセキュリティまたは汎用AI安全インシデントレポートの既存のフレームワークは、AIセキュリティの特定の特性をキャプチャするには不十分である。
論文参考訳（メタデータ） (2024-12-19T13:50:26Z)
Landscape of AI safety concerns -- A methodology to support safety assurance for AI-based autonomous systems [0.0]
AIは重要な技術として登場し、さまざまなアプリケーションにまたがる進歩を加速している。 AIコンポーネントを組み込んだシステムの安全性を確保するという課題は、極めて重要である。本稿では,AIシステムにおける安全保証事例作成を支援する新しい手法を提案する。
論文参考訳（メタデータ） (2024-12-18T16:38:16Z)
Engineering Trustworthy AI: A Developer Guide for Empirical Risk Minimization [53.80919781981027]
信頼できるAIのための重要な要件は、経験的リスク最小化のコンポーネントの設計選択に変換できる。私たちは、AIの信頼性の新たな標準を満たすAIシステムを構築するための実用的なガイダンスを提供したいと思っています。
論文参考訳（メタデータ） (2024-10-25T07:53:32Z)
Generative AI Agents in Autonomous Machines: A Safety Perspective [9.02400798202199]
生成AIエージェントは、非並列機能を提供するが、ユニークな安全性上の懸念もある。本研究では、生成モデルが物理自律機械にエージェントとして統合される際の安全要件の進化について検討する。我々は、自律機械で生成AI技術を使用するための総合的な安全スコアカードの開発と実装を推奨する。
論文参考訳（メタデータ） (2024-10-20T20:07:08Z)
Trustworthy, Responsible, and Safe AI: A Comprehensive Architectural Framework for AI Safety with Challenges and Mitigations [14.150792596344674]
AI安全性は、AIシステムの安全な採用とデプロイにおいて重要な領域である。私たちの目標は、AI安全研究の進歩を促進し、究極的には、デジタルトランスフォーメーションに対する人々の信頼を高めることです。
論文参考訳（メタデータ） (2024-08-23T09:33:48Z)
Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文参考訳（メタデータ） (2024-07-31T17:59:24Z)
Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文参考訳（メタデータ） (2024-06-21T16:14:15Z)
AI Risk Management Should Incorporate Both Safety and Security [185.68738503122114]
AIリスクマネジメントの利害関係者は、安全とセキュリティの間のニュアンス、シナジー、相互作用を意識すべきである、と私たちは主張する。我々は、AIの安全性とAIのセキュリティの違いと相互作用を明らかにするために、統一された参照フレームワークを導入する。
論文参考訳（メタデータ） (2024-05-29T21:00:47Z)
Explainable AI for Safe and Trustworthy Autonomous Driving: A Systematic Review [12.38351931894004]
本稿では,安全かつ信頼性の高い自動運転のための説明可能な手法に関する,最初の体系的な文献レビューを紹介する。我々は、ADにおける安全で信頼性の高いAIに対するXAIの5つの重要な貢献を特定し、それらは解釈可能な設計、解釈可能な代理モデル、解釈可能なモニタリング、補助的な説明、解釈可能な検証である。我々は、これらのコントリビューションを統合するためにSafeXと呼ばれるモジュラーフレームワークを提案し、同時にAIモデルの安全性を確保しながら、ユーザへの説明提供を可能にした。
論文参考訳（メタデータ） (2024-02-08T09:08:44Z)
Towards Safer Generative Language Models: A Survey on Safety Risks, Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文参考訳（メタデータ） (2023-02-18T09:32:55Z)
Safe AI -- How is this Possible? [0.45687771576879593]
従来の安全エンジニアリングは、決定論的で非進化的なシステムが、明確に定義されたコンテキストで運用されるものから、予測不可能な操作コンテキストで機能する自律的で学習可能なAIシステムへと、転換点に近づいている。我々は、安全AIの基本的な課題を概説し、AIシステムの安全な振る舞いにおいて、不確実性を最小化し、信頼性を高め、許容レベルまで、厳格なエンジニアリングフレームワークを提案する。
論文参考訳（メタデータ） (2022-01-25T16:32:35Z)
AAAI FSS-19: Human-Centered AI: Trustworthiness of AI Models and Data Proceedings [8.445274192818825]
予測モデルは不確実性を認識し、信頼できる予測をもたらすことが不可欠である。このシンポジウムの焦点は、データ品質と技術的堅牢性と安全性を改善するAIシステムであった。広く定義された領域からの提出はまた、説明可能なモデル、人間の信頼、AIの倫理的側面といった要求に対処するアプローチについても論じた。
論文参考訳（メタデータ） (2020-01-15T15:30:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。