論文の概要: PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach
- arxiv url: http://arxiv.org/abs/2511.20703v1
- Date: Mon, 24 Nov 2025 18:46:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.770324
- Title: PropensityBench: Evaluating Latent Safety Risks in Large Language Models via an Agentic Approach
- Title(参考訳): PropensityBench:エージェントアプローチによる大規模言語モデルの潜在的安全性リスクの評価
- Authors: Udari Madhushani Sehwag, Shayan Shabihi, Alex McAvoy, Vikash Sehwag, Yuancheng Xu, Dalton Towers, Furong Huang,
- Abstract要約: 我々は、リスクを伴う行動に関わるモデルの確率を評価する新しいベンチマークフレームワークであるtextbfPropensityBench$を提示する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
オープンソースとプロプライエタリなフロンティアモデル全体で、私たちは9つの不確実性の兆候を発見しました。
- 参考スコア(独自算出の注目度): 49.14349403242654
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Large Language Models (LLMs) have sparked concerns over their potential to acquire and misuse dangerous or high-risk capabilities, posing frontier risks. Current safety evaluations primarily test for what a model \textit{can} do - its capabilities - without assessing what it $\textit{would}$ do if endowed with high-risk capabilities. This leaves a critical blind spot: models may strategically conceal capabilities or rapidly acquire them, while harboring latent inclinations toward misuse. We argue that $\textbf{propensity}$ - the likelihood of a model to pursue harmful actions if empowered - is a critical, yet underexplored, axis of safety evaluation. We present $\textbf{PropensityBench}$, a novel benchmark framework that assesses the proclivity of models to engage in risky behaviors when equipped with simulated dangerous capabilities using proxy tools. Our framework includes 5,874 scenarios with 6,648 tools spanning four high-risk domains: cybersecurity, self-proliferation, biosecurity, and chemical security. We simulate access to powerful capabilities via a controlled agentic environment and evaluate the models' choices under varying operational pressures that reflect real-world constraints or incentives models may encounter, such as resource scarcity or gaining more autonomy. Across open-source and proprietary frontier models, we uncover 9 alarming signs of propensity: models frequently choose high-risk tools when under pressure, despite lacking the capability to execute such actions unaided. These findings call for a shift from static capability audits toward dynamic propensity assessments as a prerequisite for deploying frontier AI systems safely. Our code is available at https://github.com/scaleapi/propensity-evaluation.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、危険またはリスクの高い能力の獲得と誤用の可能性に対する懸念を引き起こし、フロンティアのリスクを引き起こしている。
現在の安全性評価は、主に、リスクの高い機能を備えた場合、 $\textit{would}$ do を評価することなく、モデル \textit{can} が何をするか(その能力)をテストする。
モデルは戦略的に機能を隠蔽したり、迅速に取得したりし、誤用に対する潜伏傾向を保ちます。
我々は、$\textbf{propensity}$ - 強化された場合有害な行動を追求するモデルの可能性 - は、安全評価の重要かつ未調査の軸であると主張している。
このベンチマークフレームワークは、プロキシツールを使ってシミュレートされた危険な機能を備えた場合、危険行動に対処するモデルの確率を評価する。
私たちのフレームワークには,サイバーセキュリティ,自己増殖,バイオセキュリティ,化学セキュリティという,リスクの高い4つのドメインにまたがる6,648のツールを備えた,5,874のシナリオが含まれています。
我々は、制御されたエージェント環境を介して強力な能力へのアクセスをシミュレートし、実世界の制約やインセンティブモデルに遭遇する可能性のあるリソース不足や、より自律的な獲得といった、さまざまな運用上のプレッシャーの下でモデルの選択を評価する。
オープンソースのフロンティアモデルとプロプライエタリなフロンティアモデル全体で、9つの不確実性の兆候が明らかになった。
これらの調査結果は、フロンティアAIシステムを安全にデプロイするための前提条件として、静的な能力監査からダイナミックな適合性評価へのシフトを求めている。
私たちのコードはhttps://github.com/scaleapi/propensity-evaluationで利用可能です。
関連論文リスト
- Consensus Sampling for Safer Generative AI [8.93965818386567]
AI安全性に対する多くのアプローチは、モデル出力やアクティベーションの検査に依存している。
複数の生成モデルの集約を通じて安全性を高める補完的アーキテクチャに依存しないアプローチを提案する。
我々は、$k$モデルとプロンプトを与えられた場合、$k$モデルの最も安全な$s$の平均リスクと競合するリスクを達成するコンセンサスサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-11-12T17:09:45Z) - Death by a Thousand Prompts: Open Model Vulnerability Analysis [0.06213771671016099]
オープンウェイトモデルは、研究者や開発者に対して、さまざまなダウンストリームアプリケーションの基礎を提供します。
8つのオープンウェイトな大規模言語モデル(LLM)の安全性とセキュリティの姿勢をテストし、その後の微調整とデプロイメントに影響を与える可能性のある脆弱性を特定しました。
以上の結果から, マルチターン攻撃による成功率は25.86%から92.78%であった。
論文 参考訳(メタデータ) (2025-11-05T07:22:24Z) - A Survey on Autonomy-Induced Security Risks in Large Model-Based Agents [45.53643260046778]
大規模言語モデル(LLM)の最近の進歩は、自律型AIエージェントの台頭を触媒している。
これらの大きなモデルエージェントは、静的推論システムからインタラクティブなメモリ拡張エンティティへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-06-30T13:34:34Z) - SafeAgent: Safeguarding LLM Agents via an Automated Risk Simulator [77.86600052899156]
LLM(Large Language Model)ベースのエージェントは、現実のアプリケーションにますますデプロイされる。
完全自動合成データ生成によるエージェント安全性を体系的に向上する最初のフレームワークであるAutoSafeを提案する。
AutoSafeは安全性のスコアを平均で45%向上させ、現実世界のタスクでは28.91%の改善を実現している。
論文 参考訳(メタデータ) (2025-05-23T10:56:06Z) - Sabotage Evaluations for Frontier Models [48.23262570766321]
十分な能力を持つモデルは、重要なコンテキストにおける人間の監視と意思決定を覆す可能性がある。
我々は、一連の関連する脅威モデルと評価を開発する。
これらの評価は、Arthropic の Claude 3 Opus モデルと Claude 3.5 Sonnet モデルで実証する。
論文 参考訳(メタデータ) (2024-10-28T20:34:51Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - Model evaluation for extreme risks [46.53170857607407]
AI開発のさらなる進歩は、攻撃的なサイバー能力や強力な操作スキルのような極端なリスクを引き起こす能力につながる可能性がある。
モデル評価が極端なリスクに対処するために重要である理由を説明します。
論文 参考訳(メタデータ) (2023-05-24T16:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。