論文の概要: Safety and Security Analysis of Large Language Models: Risk Profile and Harm Potential
- arxiv url: http://arxiv.org/abs/2509.10655v1
- Date: Fri, 12 Sep 2025 19:34:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:22.716486
- Title: Safety and Security Analysis of Large Language Models: Risk Profile and Harm Potential
- Title(参考訳): 大規模言語モデルの安全性とセキュリティ分析:リスクプロファイルとハームポテンシャル
- Authors: Charankumar Akiri, Harrison Simpson, Kshitiz Aryal, Aarav Khanna, Maanak Gupta,
- Abstract要約: 本研究は,9大言語モデル(LLM)の実証分析とリスクプロファイルを提供する。
RSIはアジャイルでスケーラブルな評価スコアであり、セキュリティ姿勢を定量化し比較し、LLMのリスクプロファイルを作成する。
この研究は、テストされたLLMの安全性フィルタの広範な脆弱性を発見し、より強力なアライメント、責任あるデプロイメントプラクティス、モデルガバナンスの必要性を強調している。
- 参考スコア(独自算出の注目度): 0.1631115063641726
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While the widespread deployment of Large Language Models (LLMs) holds great potential for society, their vulnerabilities to adversarial manipulation and exploitation can pose serious safety, security, and ethical risks. As new threats continue to emerge, it becomes critically necessary to assess the landscape of LLMs' safety and security against evolving adversarial prompt techniques. To understand the behavior of LLMs, this research provides an empirical analysis and risk profile of nine prominent LLMs, Claude Opus 4, DeepSeek V3 (both open-source and online), Gemini 2.5 Flash, GPT-4o, Grok 3, Llama 4 Scout, Mistral 7B, and Qwen 3 1.7B, against 24 different security and safety categories. These LLMs are evaluated on their ability to produce harmful responses for adversarially crafted prompts (dataset has been made public) for a broad range of safety and security topics, such as promotion of violent criminal behavior, promotion of non-violent criminal activity, societal harms related to safety, illegal sexual content, dangerous code generation, and cybersecurity threats beyond code. Our study introduces the Risk Severity Index (RSI), an agile and scalable evaluation score, to quantify and compare the security posture and creating a risk profile of LLMs. As the LLM development landscape progresses, the RSI is intended to be a valuable metric for comparing the risks of LLMs across evolving threats. This research finds widespread vulnerabilities in the safety filters of the LLMs tested and highlights the urgent need for stronger alignment, responsible deployment practices, and model governance, particularly for open-access and rapidly iterated models.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な展開は社会に大きな可能性を秘めているが、敵の操作や搾取に対する脆弱性は深刻な安全性、セキュリティ、倫理的リスクをもたらす可能性がある。
新たな脅威が出現し続ければ、LLMの安全と安全の景観を、進化する敵の急進的技術に対して評価する必要がある。
LLMの振る舞いを理解するために、この研究はClaude Opus 4、DeepSeek V3(オープンソースとオンラインの両方)、Gemini 2.5 Flash、Grok 3、Llama 4 Scout、Mistral 7B、Qwen 3 1.7Bの9つの著名なLCMの、24のセキュリティおよび安全性カテゴリに対する実証分析とリスクプロファイルを提供する。
これらのLSMは、暴力的な犯罪行為の促進、非暴力的な犯罪行為の促進、安全に関する社会的危害、違法な性コンテンツ、危険なコード生成、コードを超えたサイバーセキュリティの脅威など、幅広い安全とセキュリティのトピックに対して、敵に作られたプロンプト(データセットが公開されている)に対する有害な応答を生み出す能力について評価されている。
当社では,セキュリティ姿勢を定量化し比較し,LSMのリスクプロファイルを作成するために,アジャイルでスケーラブルな評価スコアであるリスク重大度指標(RSI)を導入している。
LLMの開発状況が進むにつれて、RSIは進化する脅威とLLMのリスクを比較するための貴重な指標となる。
この研究は、テストされたLLMの安全性フィルタの広範な脆弱性を発見し、特にオープンアクセスおよび迅速な反復モデルにおいて、より強力なアライメント、責任あるデプロイメントプラクティス、モデルガバナンスの必要性を強調している。
関連論文リスト
- Security Concerns for Large Language Models: A Survey [4.1824815480811806]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する、これらの新興懸念の包括的概要を提供する。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。