論文の概要: Risk Assessment and Security Analysis of Large Language Models
- arxiv url: http://arxiv.org/abs/2508.17329v1
- Date: Sun, 24 Aug 2025 12:34:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.469781
- Title: Risk Assessment and Security Analysis of Large Language Models
- Title(参考訳): 大規模言語モデルのリスクアセスメントとセキュリティ分析
- Authors: Xiaoyan Zhang, Dongyang Lyu, Xiaoqi Li,
- Abstract要約: 本稿では,重要なアプリケーションシナリオにおける大規模言語モデル(LLM)のセキュリティ問題に焦点をあてる。
本稿では,動的リスク評価システムと階層型防衛システムの設計について述べる。
実験の結果,システムは隠れた攻撃を識別できることがわかった。
- 参考スコア(独自算出の注目度): 3.571310580820494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) expose systemic security challenges in high risk applications, including privacy leaks, bias amplification, and malicious abuse, there is an urgent need for a dynamic risk assessment and collaborative defence framework that covers their entire life cycle. This paper focuses on the security problems of large language models (LLMs) in critical application scenarios, such as the possibility of disclosure of user data, the deliberate input of harmful instructions, or the models bias. To solve these problems, we describe the design of a system for dynamic risk assessment and a hierarchical defence system that allows different levels of protection to cooperate. This paper presents a risk assessment system capable of evaluating both static and dynamic indicators simultaneously. It uses entropy weighting to calculate essential data, such as the frequency of sensitive words, whether the API call is typical, the realtime risk entropy value is significant, and the degree of context deviation. The experimental results show that the system is capable of identifying concealed attacks, such as role escape, and can perform rapid risk evaluation. The paper uses a hybrid model called BERT-CRF (Bidirectional Encoder Representation from Transformers) at the input layer to identify and filter malicious commands. The model layer uses dynamic adversarial training and differential privacy noise injection technology together. The output layer also has a neural watermarking system that can track the source of the content. In practice, the quality of this method, especially important in terms of customer service in the financial industry.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プライバシーの漏洩、バイアスの増幅、悪意のある悪用など、リスクの高いアプリケーションにおけるシステム的セキュリティ上の課題を明らかにするため、ライフサイクル全体をカバーする動的リスクアセスメントと協調防御フレームワークが緊急必要である。
本稿では,ユーザデータの開示の可能性,有害な命令の意図的な入力,モデルバイアスなど,重要なアプリケーションシナリオにおける大規模言語モデル(LLM)のセキュリティ問題に焦点を当てる。
これらの問題を解決するため、動的リスク評価システムの設計と、異なるレベルの保護が連携できる階層型防衛システムについて述べる。
本稿では,静的指標と動的指標を同時に評価できるリスク評価システムを提案する。
エントロピー重み付けを用いて、センシティブな単語の頻度、API呼び出しが典型的であるか、リアルタイムリスクエントロピー値が重要であるか、文脈偏差の程度などの重要なデータを計算する。
実験結果から,本システムはロールエスケープなどの隠れた攻撃を識別でき,迅速なリスク評価を行うことができることがわかった。
本稿では、入力層にBERT-CRF(Bidirectional Encoder Representation from Transformers)と呼ばれるハイブリッドモデルを用い、悪意のあるコマンドを識別・フィルタリングする。
モデル層は動的対向トレーニングと差分プライバシーノイズ注入技術を併用する。
出力層は、コンテンツのソースを追跡することができるニューラルな透かしシステムも備えている。
実際にこの手法の質は、特に金融業界における顧客サービスにおいて重要である。
関連論文リスト
- Alleviating Attack Data Scarcity: SCANIA's Experience Towards Enhancing In-Vehicle Cyber Security Measures [0.1631115063641726]
本稿では,攻撃入力とそれに対応する車載ネットワークログを生成するコンテキスト対応アタックデータ生成器を提案する。
CANメッセージデコーディングとアタック強度調整を付加したパラメータ化攻撃モデルを使用して、アタックシナリオを構成する。
生成したデータを用いて2つのディープニューラルネットワークIDSモデルの実験的評価を行った。
論文 参考訳(メタデータ) (2025-07-03T13:31:33Z) - Efficient Cybersecurity Assessment Using SVM and Fuzzy Evidential Reasoning for Resilient Infrastructure [0.0]
本稿では,ファジィ明示的推論 (ER) を用いたセキュリティ問題評価モデルを提案する。
このような問題を克服するために,ファジィ明示的推論 (ER) を用いたセキュリティ問題評価モデルを提案する。
論文 参考訳(メタデータ) (2025-06-28T16:08:34Z) - Real-Time Detection of Insider Threats Using Behavioral Analytics and Deep Evidential Clustering [0.0]
本稿では,行動分析と深層的クラスタリングを組み合わせた,インサイダー脅威をリアルタイムに検出するフレームワークを提案する。
本システムは,ユーザの行動を捉え,分析し,文脈に富んだ行動特徴を適用し,潜在的な脅威を分類する。
我々は,CERTやTWOSなどのベンチマークインサイダー脅威データセットについて,平均検出精度94.7%,偽陽性率38%を従来のクラスタリング手法と比較し評価した。
論文 参考訳(メタデータ) (2025-05-21T11:21:33Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Intermediate Outputs Are More Sensitive Than You Think [3.20091188522012]
本稿では、自由度(DoF)と中間出力の感度に基づいて、深層コンピュータビジョンモデルにおけるプライバシーリスクを測定する新しいアプローチを提案する。
本研究では,各層に保持される情報量を評価するためにDoFを利用するフレームワークを提案し,これをヤコビ行列のランクと組み合わせて入力変動に対する感度を評価する。
論文 参考訳(メタデータ) (2024-12-01T06:40:28Z) - EARBench: Towards Evaluating Physical Risk Awareness for Task Planning of Foundation Model-based Embodied AI Agents [53.717918131568936]
EAI(Embodied AI)は、高度なAIモデルを現実世界のインタラクションのための物理的なエンティティに統合する。
高レベルのタスク計画のためのEAIエージェントの"脳"としてのファンデーションモデルは、有望な結果を示している。
しかし、これらのエージェントの物理的環境への展開は、重大な安全性上の課題を呈している。
本研究では,EAIシナリオにおける身体的リスクの自動評価のための新しいフレームワークEARBenchを紹介する。
論文 参考訳(メタデータ) (2024-08-08T13:19:37Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。