論文の概要: Monte Carlo Expected Threat (MOCET) Scoring
- arxiv url: http://arxiv.org/abs/2511.16823v1
- Date: Thu, 20 Nov 2025 22:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:18.818577
- Title: Monte Carlo Expected Threat (MOCET) Scoring
- Title(参考訳): モンテカルロ、脅威(MOCET)を予想
- Authors: Joseph Kim, Saahith Potluri,
- Abstract要約: ASL-3+モデルは、初心者の非国家アクターを引き上げる能力に固有のリスクをもたらす。
既存の評価指標は、モデルアップリフトとドメイン知識を確実に評価することができる。
我々は、現実世界のリスクを定量化できる解釈可能で2倍のスケール可能な測度であるMOCETを紹介する。
- 参考スコア(独自算出の注目度): 1.4216140193392368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating and measuring AI Safety Level (ASL) threats are crucial for guiding stakeholders to implement safeguards that keep risks within acceptable limits. ASL-3+ models present a unique risk in their ability to uplift novice non-state actors, especially in the realm of biosecurity. Existing evaluation metrics, such as LAB-Bench, BioLP-bench, and WMDP, can reliably assess model uplift and domain knowledge. However, metrics that better contextualize "real-world risks" are needed to inform the safety case for LLMs, along with scalable, open-ended metrics to keep pace with their rapid advancements. To address both gaps, we introduce MOCET, an interpretable and doubly-scalable metric (automatable and open-ended) that can quantify real-world risks.
- Abstract(参考訳): AIセーフティレベル(ASL)の脅威の評価と測定は、ステークホルダーが許容範囲内でリスクを維持するための安全対策を実施するために不可欠である。
ASL-3+モデルは、特にバイオセキュリティの領域において、初心者の非国家アクターを引き上げる能力に固有のリスクをもたらす。
LAB-Bench、BioLP-bench、WMDPといった既存の評価指標は、モデルアップリフトとドメイン知識を確実に評価することができる。
しかし、LLMの安全ケースを知らせるためには、「現実世界のリスク」をより良く理解するメトリクスと、彼らの急速な進歩に追従するためのスケーラブルでオープンなメトリクスが必要である。
両ギャップに対処するために,実世界のリスクを定量化可能な,解釈可能かつ2倍にスケール可能なメトリック(自動化可能かつオープンエンド)であるMOCETを導入する。
関連論文リスト
- Safety and Security Analysis of Large Language Models: Benchmarking Risk Profile and Harm Potential [0.1631115063641726]
本研究は,9大言語モデル(LLM)の実証分析とリスクプロファイルを提供する。
RSIはアジャイルでスケーラブルな評価スコアであり、セキュリティ姿勢を定量化し比較し、LLMのリスクプロファイルを作成する。
この研究は、テストされたLLMの安全性フィルタの広範な脆弱性を発見し、より強力なアライメント、責任あるデプロイメントプラクティス、モデルガバナンスの必要性を強調している。
論文 参考訳(メタデータ) (2025-09-12T19:34:10Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models [46.148439517272024]
生成型大規模言語モデル (LLMs) は、自然言語処理に革命をもたらした。
最近の証拠は、LLMが社会規範に反する有害なコンテンツを生成できることを示している。
S-Evalは,新たに定義された包括的リスク分類を持つ自動安全評価フレームワークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。