論文の概要: From nuclear safety to LLM security: Applying non-probabilistic risk management strategies to build safe and secure LLM-powered systems
- arxiv url: http://arxiv.org/abs/2505.17084v1
- Date: Tue, 20 May 2025 16:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.541922
- Title: From nuclear safety to LLM security: Applying non-probabilistic risk management strategies to build safe and secure LLM-powered systems
- Title(参考訳): 原子力安全からLLMセキュリティへ:安全で安全なLLMシステムを構築するための非確率的リスクマネジメント戦略の適用
- Authors: Alexander Gutfraind, Vicki Bier,
- Abstract要約: 大型言語モデル(LLM)は、前例がなく成長する能力を提供するが、複雑な安全性とセキュリティの課題ももたらす。
以前の研究では、原子力や土木工学といった様々な工学分野におけるリスク管理は、一般的な(フィールドに依存しない)戦略によってしばしば解決されている。
ここでは、LSMによるシステムにおける新たなリスクが、リスク管理の非確率的戦略の100以上で満たされる可能性を示す。
- 参考スコア(独自算出の注目度): 49.1574468325115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) offer unprecedented and growing capabilities, but also introduce complex safety and security challenges that resist conventional risk management. While conventional probabilistic risk analysis (PRA) requires exhaustive risk enumeration and quantification, the novelty and complexity of these systems make PRA impractical, particularly against adaptive adversaries. Previous research found that risk management in various fields of engineering such as nuclear or civil engineering is often solved by generic (i.e. field-agnostic) strategies such as event tree analysis or robust designs. Here we show how emerging risks in LLM-powered systems could be met with 100+ of these non-probabilistic strategies to risk management, including risks from adaptive adversaries. The strategies are divided into five categories and are mapped to LLM security (and AI safety more broadly). We also present an LLM-powered workflow for applying these strategies and other workflows suitable for solution architects. Overall, these strategies could contribute (despite some limitations) to security, safety and other dimensions of responsible AI.
- Abstract(参考訳): 大規模言語モデル(LLM)は、前例がなく成長する能力を提供するが、従来のリスク管理に抵抗する複雑な安全性とセキュリティの課題も導入する。
従来の確率論的リスク分析(PRA)では、全能的なリスク列挙と定量化が必要であるが、これらのシステムの新規性と複雑さは、特に適応的な敵に対してPRAを非現実的にしている。
以前の研究では、原子力や土木工学のような様々な工学分野におけるリスク管理は、イベントツリー分析やロバスト設計のような一般的な(フィールドに依存しない)戦略によってしばしば解決されている。
ここでは、LLMによるシステムにおける新たなリスクが、適応的敵からのリスクを含む、リスク管理に対する非確率的戦略の100以上で満たされることを示す。
戦略は5つのカテゴリに分けられ、LLMセキュリティ(とAIの安全性をより広く)にマップされる。
また、これらの戦略やソリューションアーキテクトに適したワークフローを適用するためのLLMベースのワークフローも提示する。
全体として、これらの戦略は(いくつかの制限にもかかわらず)セキュリティ、安全性、その他の責任あるAIの側面に寄与する可能性がある。
関連論文リスト
- TELSAFE: Security Gap Quantitative Risk Assessment Framework [9.16098821053237]
確立されたセキュリティ標準と実践的な実装との間のギャップは、脆弱性を導入する可能性がある。
TELSAFEと呼ばれる新しいハイブリッドリスク評価フレームワークを導入し、定量的リスク評価に確率論的モデリングを適用した。
論文 参考訳(メタデータ) (2025-07-09T02:45:00Z) - An Approach to Technical AGI Safety and Security [72.83728459135101]
我々は、人類を著しく傷つけるのに十分な害のリスクに対処するアプローチを開発する。
私たちは、誤用や悪用に対する技術的なアプローチに重点を置いています。
これらの成分を組み合わせてAGIシステムの安全性を実現する方法について概説する。
論文 参考訳(メタデータ) (2025-04-02T15:59:31Z) - A Frontier AI Risk Management Framework: Bridging the Gap Between Current AI Practices and Established Risk Management [0.0]
最近の強力なAIシステムの開発は、堅牢なリスク管理フレームワークの必要性を強調している。
本稿では,フロンティアAI開発のための包括的リスク管理フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T16:47:00Z) - Large Language Model Safety: A Holistic Survey [35.42419096859496]
大規模言語モデル(LLM)の急速な開発と展開により、人工知能の新たなフロンティアが導入された。
この調査は、LLMの安全性の現在の状況の概要を包括的に紹介し、価値のミスアライメント、敵の攻撃に対する堅牢性、誤用、自律的なAIリスクの4つの主要なカテゴリをカバーしている。
論文 参考訳(メタデータ) (2024-12-23T16:11:27Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - RiskQ: Risk-sensitive Multi-Agent Reinforcement Learning Value Factorization [49.26510528455664]
本稿では,リスクに敏感な個人・グローバル・マックス(RIGM)の原則を,個人・グローバル・マックス(IGM)と分散IGM(DIGM)の原則の一般化として紹介する。
RiskQは広範な実験によって有望な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-11-03T07:18:36Z) - On strategies for risk management and decision making under uncertainty shared across multiple fields [55.2480439325792]
本稿では、このような戦略の110以上の例を見つけ、リスクに対するこのアプローチをRDOT: Risk-reducing Design and Operations Toolkitと呼ぶ。
RDOT戦略は、構造的、反応性、形式的、敵対的、多段階、ポジティブの6つの幅広いカテゴリに分類される。
全体的なRDOTは、不確実性に対する多目的応答の見過ごされたクラスを表している。
論文 参考訳(メタデータ) (2023-09-06T16:14:32Z) - System Safety Engineering for Social and Ethical ML Risks: A Case Study [0.5249805590164902]
政府、産業、アカデミックはML駆動システムにおける害を特定し緩和する努力をしてきた。
既存のアプローチは概ね不整合であり、アドホックであり、有効性は不明である。
特に、この分析が社会的および倫理的リスクを識別し、それらを緩和するための具体的な設計レベルの制御を開発するためにどのように拡張できるかに焦点を当てる。
論文 参考訳(メタデータ) (2022-11-08T22:58:58Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。