論文の概要: A Security Risk Taxonomy for Large Language Models
- arxiv url: http://arxiv.org/abs/2311.11415v1
- Date: Sun, 19 Nov 2023 20:22:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-21 20:31:54.975755
- Title: A Security Risk Taxonomy for Large Language Models
- Title(参考訳): 大規模言語モデルに対するセキュリティリスク分類法
- Authors: Erik Derner and Kristina Batisti\v{c} and Jan Zah\'alka and Robert
Babu\v{s}ka
- Abstract要約: 本稿では,大規模言語モデルによるセキュリティリスクに着目し,現在の研究のギャップに対処する。
本研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類法を提案する。
ターゲットと攻撃タイプによる攻撃を、プロンプトベースのインタラクションスキームに分類する。
- 参考スコア(独自算出の注目度): 5.120567378386615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) permeate more and more applications, an
assessment of their associated security risks becomes increasingly necessary.
The potential for exploitation by malicious actors, ranging from disinformation
to data breaches and reputation damage, is substantial. This paper addresses a
gap in current research by focusing on the security risks posed by LLMs, which
extends beyond the widely covered ethical and societal implications. Our work
proposes a taxonomy of security risks along the user-model communication
pipeline, explicitly focusing on prompt-based attacks on LLMs. We categorize
the attacks by target and attack type within a prompt-based interaction scheme.
The taxonomy is reinforced with specific attack examples to showcase the
real-world impact of these risks. Through this taxonomy, we aim to inform the
development of robust and secure LLM applications, enhancing their safety and
trustworthiness.
- Abstract(参考訳): 大規模言語モデル(LLM)がより多くのアプリケーションに浸透するにつれて、関連するセキュリティリスクの評価がますます必要になる。
不正情報からデータ漏洩や評判の損傷まで、悪意のある俳優による搾取の可能性はかなり大きい。
本稿では,llmsが生み出すセキュリティリスクに着目し,広くカバーされている倫理的,社会的な影響を超えて,現在の研究におけるギャップについて述べる。
本研究は,LSMに対する迅速な攻撃に着目し,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類法を提案する。
ターゲットと攻撃タイプによる攻撃を、プロンプトベースのインタラクションスキームに分類する。
分類学は、これらのリスクの実際の影響を示す特定の攻撃例で強化されている。
この分類を通じて、堅牢でセキュアなllmアプリケーションの開発に報知し、安全性と信頼性を高めることを目的とする。
関連論文リスト
- Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。
PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。
PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2024-07-01T23:25:30Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - Cross-Modality Safety Alignment [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Risk and Response in Large Language Models: Evaluating Key Threat Categories [6.436286493151731]
本稿では,Large Language Models (LLMs) におけるリスクアセスメントのプレッシャーについて考察する。
人為的レッドチームデータセットを利用することで、情報ハザード、悪用、差別/憎しみのあるコンテンツなど、主要なリスクカテゴリを分析します。
以上の結果から,LSMは情報ハザードを有害とみなす傾向があることが示唆された。
論文 参考訳(メタデータ) (2024-03-22T06:46:40Z) - Mapping LLM Security Landscapes: A Comprehensive Stakeholder Risk Assessment Proposal [0.0]
本稿では,従来のシステムにおけるリスク評価手法のようなツールを用いたリスク評価プロセスを提案する。
我々は、潜在的な脅威要因を特定し、脆弱性要因に対して依存するシステムコンポーネントをマッピングするためのシナリオ分析を行う。
3つの主要株主グループに対する脅威もマップ化しています。
論文 参考訳(メタデータ) (2024-03-20T05:17:22Z) - Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices [4.927763944523323]
大規模言語モデル(LLM)は、自然言語処理(NLP)のランドスケープを大きく変えた。
本研究は,5つのテーマの観点から,LLMに関するセキュリティとプライバシの懸念を徹底的に調査する。
本稿は, LLMの安全性とリスク管理を強化するために, 今後の研究に期待できる道筋を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:10:58Z) - Use of LLMs for Illicit Purposes: Threats, Prevention Measures, and
Vulnerabilities [14.684194175806203]
大規模言語モデル(LLM)は詐欺、偽造、マルウェアの発生に誤用されることがある。
本稿では,LSMの生成能力による脅威と,そのような脅威に対処するための予防措置と,不完全な予防措置に起因する脆弱性との関係を分類する。
論文 参考訳(メタデータ) (2023-08-24T14:45:50Z) - Beyond the Safeguards: Exploring the Security Risks of ChatGPT [3.1981440103815717]
大きな言語モデル(LLM)の人気が高まると、安全性、セキュリティリスク、倫理的影響に対する懸念が高まっている。
本稿では、悪意のあるテキストやコード生成、プライベートデータ開示、不正なサービス、情報収集、非倫理的コンテンツの生成など、ChatGPTに関連するさまざまなセキュリティリスクの概要について述べる。
論文 参考訳(メタデータ) (2023-05-13T21:01:14Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。