論文の概要: Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications
- arxiv url: http://arxiv.org/abs/2507.09820v1
- Date: Sun, 13 Jul 2025 22:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:24.060004
- Title: Measuring What Matters: A Framework for Evaluating Safety Risks in Real-World LLM Applications
- Title(参考訳): 重要度の測定: 実世界のLLMアプリケーションにおける安全性リスク評価フレームワーク
- Authors: Jia Yi Goh, Shaun Khoo, Nyx Iskandar, Gabriel Chua, Leanne Tan, Jessica Foo,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるアプリケーションレベルの安全性を評価するための実践的フレームワークを提案する。
提案したフレームワークが社内パイロットにどのように適用されたのかを説明し、安全テストの取り組みのスケールアップを目指す組織に対して、基準ポイントを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most safety testing efforts for large language models (LLMs) today focus on evaluating foundation models. However, there is a growing need to evaluate safety at the application level, as components such as system prompts, retrieval pipelines, and guardrails introduce additional factors that significantly influence the overall safety of LLM applications. In this paper, we introduce a practical framework for evaluating application-level safety in LLM systems, validated through real-world deployment across multiple use cases within our organization. The framework consists of two parts: (1) principles for developing customized safety risk taxonomies, and (2) practices for evaluating safety risks in LLM applications. We illustrate how the proposed framework was applied in our internal pilot, providing a reference point for organizations seeking to scale their safety testing efforts. This work aims to bridge the gap between theoretical concepts in AI safety and the operational realities of safeguarding LLM applications in practice, offering actionable guidance for safe and scalable deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性テストの取り組みは、現在、基礎モデルの評価に重点を置いている。
しかしながら、システムプロンプトやパイプライン、ガードレールといったコンポーネントが、LLMアプリケーションの全体的な安全性に大きな影響を与える追加の要因を導入しているため、アプリケーションレベルでの安全性を評価する必要性が高まっている。
本稿では,LLMシステムにおけるアプリケーションレベルの安全性を評価するための実践的フレームワークについて紹介する。
本フレームワークは,(1)カスタマイズ型安全リスク分類学の原則と,(2)LLMアプリケーションにおける安全性リスク評価のプラクティスの2つの部分から構成される。
提案したフレームワークが社内パイロットにどのように適用されたのかを説明し、安全テストの取り組みのスケールアップを目指す組織に対して、基準ポイントを提供する。
この研究は、AIの安全性における理論的概念と、実際にLLMアプリケーションを保護する運用上の現実とのギャップを埋めることを目的としており、安全でスケーラブルなデプロイメントのための実用的なガイダンスを提供する。
関連論文リスト
- The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [42.57873562187369]
大規模言語モデル(LLM)は自然言語処理(NLP)分野において顕著な可能性を示した。
LLMは、特に敵のシナリオにおいて、毒性や偏見のような安全でない要素を時々示してきた。
本調査は,LLMの安全性評価の最近の進歩を包括的かつ体系的に概観することを目的としている。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - Subtle Risks, Critical Failures: A Framework for Diagnosing Physical Safety of LLMs for Embodied Decision Making [31.555271917529872]
本研究では,大規模言語モデル(LLM)の身体的安全性を体系的に評価するフレームワークであるSAFELを紹介する。
EMBODYGUARD は PDDL をベースとしたベンチマークであり,942 の LLM 生成シナリオで過度に悪意のある命令と文脈的に有害な命令の両方をカバーしている。
本稿は,現在のLLMにおける限界点を強調し,よりターゲットを絞った,よりモジュール化された,安全な具体的推論の基盤を提供する。
論文 参考訳(メタデータ) (2025-05-26T13:01:14Z) - A Survey of Safety on Large Vision-Language Models: Attacks, Defenses and Evaluations [127.52707312573791]
この調査はLVLMの安全性を包括的に分析し、攻撃、防御、評価方法などの重要な側面をカバーする。
我々はこれらの相互関連コンポーネントを統合する統一フレームワークを導入し、LVLMの脆弱性を概観する。
我々は,最新のLVLMであるDeepseek Janus-Pro上で一連の安全性評価を行い,その結果を理論的に分析する。
論文 参考訳(メタデータ) (2025-02-14T08:42:43Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Reliability Assessment and Safety Arguments for Machine Learning
Components in Assuring Learning-Enabled Autonomous Systems [19.65793237440738]
LES(Learning-Enabled Systems)のための総合保証フレームワークを提案する。
次に、ML分類器のための新しいモデルに依存しない信頼性評価モデル(RAM)を提案する。
モデル仮定と、我々のRAMが発見したML信頼性を評価するための固有の課題について論じる。
論文 参考訳(メタデータ) (2021-11-30T14:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。