論文の概要: ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI
- arxiv url: http://arxiv.org/abs/2602.14135v2
- Date: Wed, 18 Feb 2026 11:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 13:51:30.963758
- Title: ForesightSafety Bench: A Frontier Risk Evaluation and Governance Framework towards Safe AI
- Title(参考訳): ForesightSafety Bench: 安全なAIに向けた最前線のリスク評価とガバナンスフレームワーク
- Authors: Haibo Tong, Feifei Zhao, Linghao Feng, Ruoyu Wu, Ruolin Chen, Lu Jia, Zhou Zhao, Jindong Li, Tenglong Li, Erliang Lin, Shuai Yang, Enmeng Lu, Yinqian Sun, Qian Zhang, Zizhe Ruan, Jinyu Fan, Zeyang Yue, Ping Wu, Huangrui Li, Chengyi Sun, Yi Zeng,
- Abstract要約: ForesightSafety Bench"は、最先端AIモデルの安全性評価フレームワークである。
このベンチマークでは、数万の構造化されたリスクデータポイントと評価結果が蓄積されている。
このベンチマークに基づいて,20以上の主流大規模モデルの系統的評価と詳細な解析を行う。
- 参考スコア(独自算出の注目度): 38.70363180741332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rapidly evolving AI exhibits increasingly strong autonomy and goal-directed capabilities, accompanied by derivative systemic risks that are more unpredictable, difficult to control, and potentially irreversible. However, current AI safety evaluation systems suffer from critical limitations such as restricted risk dimensions and failed frontier risk detection. The lagging safety benchmarks and alignment technologies can hardly address the complex challenges posed by cutting-edge AI models. To bridge this gap, we propose the "ForesightSafety Bench" AI Safety Evaluation Framework, beginning with 7 major Fundamental Safety pillars and progressively extends to advanced Embodied AI Safety, AI4Science Safety, Social and Environmental AI risks, Catastrophic and Existential Risks, as well as 8 critical industrial safety domains, forming a total of 94 refined risk dimensions. To date, the benchmark has accumulated tens of thousands of structured risk data points and assessment results, establishing a widely encompassing, hierarchically clear, and dynamically evolving AI safety evaluation framework. Based on this benchmark, we conduct systematic evaluation and in-depth analysis of over twenty mainstream advanced large models, identifying key risk patterns and their capability boundaries. The safety capability evaluation results reveals the widespread safety vulnerabilities of frontier AI across multiple pillars, particularly focusing on Risky Agentic Autonomy, AI4Science Safety, Embodied AI Safety, Social AI Safety and Catastrophic and Existential Risks. Our benchmark is released at https://github.com/Beijing-AISI/ForesightSafety-Bench. The project website is available at https://foresightsafety-bench.beijing-aisi.ac.cn/.
- Abstract(参考訳): 急速に進化するAIは、予測不可能で制御が難しく、潜在的に不可逆的な、派生的なシステム的リスクを伴う、ますます強力な自律性と目標指向能力を示す。
しかし、現在のAI安全性評価システムは、制限されたリスク次元や失敗するフロンティアリスク検出などの限界に悩まされている。
遅延する安全ベンチマークとアライメント技術は、最先端のAIモデルによって引き起こされる複雑な問題にほとんど対処できない。
このギャップを埋めるために、我々は「ForesightSafety Bench」AI Safety Evaluation Frameworkを提案し、まず7つの主要な基本安全柱から始まり、高度に進化したEmbodied AI Safety、AI4Science Safety、社会的および環境AIリスク、破滅的および既存リスク、および8つの重要な産業安全ドメインに拡張し、94の洗練されたリスク次元を形成する。
これまでこのベンチマークは、何万もの構造化されたリスクデータポイントと評価結果を蓄積し、広く包括的で階層的で、動的に進化するAI安全評価フレームワークを確立してきた。
このベンチマークに基づいて、20以上の主流の先進的な大規模モデルの体系的評価と詳細な分析を行い、主要なリスクパターンとその機能境界を同定する。
安全性能力評価の結果は、複数の柱にまたがるフロンティアAIの広範な安全性上の脆弱性を明らかにしている。特に、リスクのあるエージェントオートノミー、AI4Science Safety、Embodied AI Safety、Social AI Safety、破滅的および既存のリスクに焦点を当てている。
私たちのベンチマークはhttps://github.com/Beijing-AISI/ForesightSafety-Bench.orgで公開されています。
プロジェクトのWebサイトはhttps://foresightsafety-bench.beijing-aisi.ac.cn/.comで公開されている。
関連論文リスト
- Safety Co-Option and Compromised National Security: The Self-Fulfilling Prophecy of Weakened AI Risk Thresholds [0.0]
我々は「安全リビジョン主義」がAI技術者に「安全リビジョン主義」への関与を許したことを示す。
我々は、国家安全における基礎モデル使用のAIリスク決定と評価の現在の軌道が、どのようにして最下層へのレースの場に置かれるかを考察する。
論文 参考訳(メタデータ) (2025-04-21T13:20:56Z) - Frontier AI's Impact on the Cybersecurity Landscape [46.32458228179959]
AIはすでに攻撃に広く使われているが、その防衛用途は限られている。
専門家はAIが攻撃者を擁護し続けると予想しているが、そのギャップは徐々に狭まるだろう。
論文 参考訳(メタデータ) (2025-04-07T18:25:18Z) - AI Safety for Everyone [3.440579243843689]
AIの安全性に関する最近の議論と研究は、AIの安全性と高度なAIシステムからの現実的リスクとの深いつながりを強調している。
このフレーミングは、AIの安全性にコミットしているが、異なる角度から分野にアプローチする研究者や実践者を排除する可能性がある。
私たちは、現在のAIシステムに対する即時的で実践的な懸念に対処する、数多くの具体的な安全作業を見つけました。
論文 参考訳(メタデータ) (2025-02-13T13:04:59Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Safetywashing: Do AI Safety Benchmarks Actually Measure Safety Progress? [59.96471873997733]
我々は、より有意義な安全指標を開発するための実証的な基盤を提案し、機械学習研究の文脈でAIの安全性を定義する。
我々は、AI安全研究のためのより厳格なフレームワークを提供し、安全性評価の科学を前進させ、測定可能な進歩への道筋を明らかにすることを目指している。
論文 参考訳(メタデータ) (2024-07-31T17:59:24Z) - Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems [88.80306881112313]
我々は、AI安全性に対する一連のアプローチを紹介し、定義する。
これらのアプローチの中核的な特徴は、高保証の定量的安全性保証を備えたAIシステムを作ることである。
これら3つのコアコンポーネントをそれぞれ作成するためのアプローチを概説し、主な技術的課題を説明し、それらに対する潜在的なソリューションをいくつか提案します。
論文 参考訳(メタデータ) (2024-05-10T17:38:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。