論文の概要: Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5
- arxiv url: http://arxiv.org/abs/2602.14457v1
- Date: Mon, 16 Feb 2026 04:30:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.142292
- Title: Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5
- Title(参考訳): Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report v1.5
- Authors: Dongrui Liu, Yi Yu, Jie Zhang, Guanxu Chen, Qihao Lin, Hanxi Zhu, Lige Huang, Yijin Zhou, Peng Wang, Shuai Shao, Boxuan Zhang, Zicheng Liu, Jingwei Sun, Yu Li, Yuejin Xie, Jiaxuan Guo, Jia Xu, Chaochao Lu, Bowen Zhou, Xia Hu, Jing Shao,
- Abstract要約: この技術レポートは、サイバー犯罪、説得と操作、戦略上の詐欺、制御されていないAIR&D、自己複製の5つの重要な側面について、更新されきめ細かな評価を提示する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
- 参考スコア(独自算出の注目度): 61.787178868669265
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To understand and identify the unprecedented risks posed by rapidly advancing artificial intelligence (AI) models, Frontier AI Risk Management Framework in Practice presents a comprehensive assessment of their frontier risks. As Large Language Models (LLMs) general capabilities rapidly evolve and the proliferation of agentic AI, this version of the risk analysis technical report presents an updated and granular assessment of five critical dimensions: cyber offense, persuasion and manipulation, strategic deception, uncontrolled AI R\&D, and self-replication. Specifically, we introduce more complex scenarios for cyber offense. For persuasion and manipulation, we evaluate the risk of LLM-to-LLM persuasion on newly released LLMs. For strategic deception and scheming, we add the new experiment with respect to emergent misalignment. For uncontrolled AI R\&D, we focus on the ``mis-evolution'' of agents as they autonomously expand their memory substrates and toolsets. Besides, we also monitor and evaluate the safety performance of OpenClaw during the interaction on the Moltbook. For self-replication, we introduce a new resource-constrained scenario. More importantly, we propose and validate a series of robust mitigation strategies to address these emerging threats, providing a preliminary technical and actionable pathway for the secure deployment of frontier AI. This work reflects our current understanding of AI frontier risks and urges collective action to mitigate these challenges.
- Abstract(参考訳): 急速に進歩する人工知能(AI)モデルによって引き起こされる前例のないリスクを理解し、特定するために、Frontier AI Risk Management Framework in Practiceは、フロンティアのリスクを包括的に評価する。
大規模言語モデル(LLMs)の一般的な能力が急速に進化し、エージェントAIが普及するにつれて、リスク分析技術レポートのこのバージョンでは、サイバー攻撃、説得と操作、戦略的騙し、制御されていないAIR&D、自己複製という5つの重要な次元の更新ときめ細かい評価が提示されている。
具体的には、サイバー犯罪のより複雑なシナリオを紹介します。
LLM-to-LLM を新たにリリースした LLM に対する説得と操作のリスクを評価する。
戦略的騙しや計画を立てるために、創発的不整合に関する新しい実験を加えます。
制御されていないAI R\&Dでは、エージェントの‘mis-evolution’に重点を置いて、メモリ基板とツールセットを自律的に拡張します。
また,モルトブック上でのインタラクションにおいて,OpenClawの安全性を監視・評価する。
自己複製には,新たな資源制約シナリオを導入する。
さらに重要なことは、これらの新興脅威に対処するための堅牢な緩和戦略を提案し、検証し、フロンティアAIの安全な展開のための予備的な技術的かつ実行可能な経路を提供する。
この作業は、現在のAIフロンティアのリスクに対する理解を反映し、これらの課題を軽減するための集団行動を促します。
関連論文リスト
- Toward Risk Thresholds for AI-Enabled Cyber Threats: Enhancing Decision-Making Under Uncertainty with Bayesian Networks [0.3151064009829256]
我々は、AIサイバーリスク閾値の開発と評価のための構造化アプローチを提案する。
まず、既存の業界におけるサイバーしきい値を分析し、共通しきい値要素を同定する。
第2に,AI可能なサイバーリスクをモデル化するためのツールとしてベイズネットワークを提案する。
論文 参考訳(メタデータ) (2026-01-23T23:23:12Z) - Toward Quantitative Modeling of Cybersecurity Risks Due to AI Misuse [50.87630846876635]
我々は9つの詳細なサイバーリスクモデルを開発する。
各モデルはMITRE ATT&CKフレームワークを使用して攻撃をステップに分解する。
個々の見積もりはモンテカルロシミュレーションによって集約される。
論文 参考訳(メタデータ) (2025-12-09T17:54:17Z) - Frontier AI Risk Management Framework in Practice: A Risk Analysis Technical Report [51.17413460785022]
本報告では,フロンティアリスクの包括的評価について述べる。
サイバー犯罪、生物学的および化学的リスク、説得と操作、制御不能な自律型AIR&D、戦略的騙しと計画、自己複製、共謀の7つの分野における重要なリスクを特定します。
論文 参考訳(メタデータ) (2025-07-22T12:44:38Z) - Manipulation Attacks by Misaligned AI: Risk Analysis and Safety Case Framework [0.0]
人間はしばしばサイバーセキュリティシステムにおいて最も弱いリンクである。
ミスアライメントのAIシステムは、従業員を操作することによって人間の監視を損なう可能性がある。
これらのリスクを評価し緩和するための体系的な枠組みは存在しない。
本稿では,AIの安全性管理に操作リスクを統合するための,最初の体系的方法論を提供する。
論文 参考訳(メタデータ) (2025-07-17T07:45:53Z) - Mitigating Cyber Risk in the Age of Open-Weight LLMs: Policy Gaps and Technical Realities [0.0]
オープンウェイト汎用AI(GPAI)モデルには大きなメリットがあるが、重大なサイバーセキュリティリスクも伴う。
本稿では、オープンウェイトAIリリースによって拡大した、マルウェア開発とソーシャルエンジニアリングの強化を含む、特定の脅威を分析する。
本稿では,モデル全体ではなく,特定のハイリスク機能の評価と制御に重点を置く経路を提案する。
論文 参考訳(メタデータ) (2025-05-21T11:35:52Z) - A Proposal for Evaluating the Operational Risk for ChatBots based on Large Language Models [39.58317527488534]
3つの主要なステークホルダーに対する潜在的な脅威を同時に評価する新しいリスク評価指標を提案する。
メトリクスを検証するために、脆弱性テスト用のオープンソースのフレームワークであるGarakを活用しています。
その結果、セキュアで信頼性の高いAI駆動会話システムの運用における多次元リスクアセスメントの重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-07T20:26:45Z) - OCCULT: Evaluating Large Language Models for Offensive Cyber Operation Capabilities [0.0]
我々は、実世界の攻撃的サイバー操作の実現とスケーリングに向けたAIの進歩を評価するための新しいアプローチを実証する。
我々は、サイバーセキュリティの専門家が厳格かつ反復可能な測定に貢献できる軽量な運用評価フレームワークであるOCCULTについて詳述する。
私たちは、現実的なサイバー脅威をスケールするためにAIが使用されるリスクが、最近著しく進歩していることに気付きました。
論文 参考訳(メタデータ) (2025-02-18T19:33:14Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。