論文の概要: Breaking to Build: A Threat Model of Prompt-Based Attacks for Securing LLMs
- arxiv url: http://arxiv.org/abs/2509.04615v1
- Date: Thu, 04 Sep 2025 18:59:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.390299
- Title: Breaking to Build: A Threat Model of Prompt-Based Attacks for Securing LLMs
- Title(参考訳): ビルを壊す - LLMをセキュアにするためのプロンプトベースの攻撃の脅威モデル
- Authors: Brennen Hill, Surendra Parla, Venkata Abhijeeth Balabhadruni, Atharv Prajod Padmalayam, Sujay Chandra Shekara Sharma,
- Abstract要約: 大規模言語モデル(LLM)は重要なセキュリティ課題を導入している。
敵のアクターは入力プロンプトを操作できる 重大な損傷を発生させ 安全アライメントを回避できる
本調査は,次世代のLLMの構築に向けた研究コミュニティの取り組みを報告することを目的としている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The proliferation of Large Language Models (LLMs) has introduced critical security challenges, where adversarial actors can manipulate input prompts to cause significant harm and circumvent safety alignments. These prompt-based attacks exploit vulnerabilities in a model's design, training, and contextual understanding, leading to intellectual property theft, misinformation generation, and erosion of user trust. A systematic understanding of these attack vectors is the foundational step toward developing robust countermeasures. This paper presents a comprehensive literature survey of prompt-based attack methodologies, categorizing them to provide a clear threat model. By detailing the mechanisms and impacts of these exploits, this survey aims to inform the research community's efforts in building the next generation of secure LLMs that are inherently resistant to unauthorized distillation, fine-tuning, and editing.
- Abstract(参考訳): LLM(Large Language Models)の普及は、敵のアクターが入力プロンプトを操作して重大な損傷を発生させ、安全アライメントを回避するという、重要なセキュリティ課題を引き起こしている。
これらのプロンプトベースの攻撃は、モデルの設計、トレーニング、コンテキスト理解の脆弱性を悪用し、知的財産の盗難、誤情報生成、ユーザ信頼の侵食につながる。
これらの攻撃ベクトルの体系的な理解は、堅牢な対策を開発するための基本的なステップである。
本稿では,アタック手法に関する包括的文献調査を行い,それらを分類し,明確な脅威モデルを提供する。
本研究は、これらのエクスプロイトのメカニズムと影響を詳述し、未認可蒸留、微調整、編集に本質的に抵抗する次世代のLLMの構築に向けた研究コミュニティの取り組みを報告することを目的とする。
関連論文リスト
- A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - Security Concerns for Large Language Models: A Survey [4.1824815480811806]
大きな言語モデル(LLM)は自然言語処理に革命をもたらしたが、その能力は新たなセキュリティ脆弱性も導入している。
この調査は、脅威をいくつかの重要な領域に分類する、これらの新興懸念の包括的概要を提供する。
LLMが安全で有益であることを保証するために、堅牢で多層的なセキュリティ戦略を推進していくことの重要性を強調した。
論文 参考訳(メタデータ) (2025-05-24T22:22:43Z) - LLM Security: Vulnerabilities, Attacks, Defenses, and Countermeasures [49.1574468325115]
本調査は,大規模言語モデル(LLM)を対象とした各種攻撃を定義し,分類することを目的とする。
これらの攻撃を徹底的に分析し、そのような脅威を軽減するために設計された防御機構を探索する。
論文 参考訳(メタデータ) (2025-05-02T10:35:26Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Recent Advances in Attack and Defense Approaches of Large Language Models [27.271665614205034]
大規模言語モデル(LLM)は、高度なテキスト処理と生成機能を通じて、人工知能と機械学習に革命をもたらした。
彼らの広範な展開は、重大な安全性と信頼性の懸念を引き起こした。
本稿は,LLMの脆弱性と脅威に関する最近の研究をレビューし,現代防衛機構の有効性を評価する。
論文 参考訳(メタデータ) (2024-09-05T06:31:37Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Breaking Down the Defenses: A Comparative Survey of Attacks on Large Language Models [18.624280305864804]
大規模言語モデル(LLM)は自然言語処理(NLP)分野の基盤となっている。
本稿では,LSMを標的とした様々な攻撃形態の包括的調査を行う。
モデルアウトプットを操作するための敵攻撃、モデルトレーニングに影響を与えるデータ中毒、データエクスプロイトのトレーニングに関連するプライバシー上の懸念などについて調べる。
論文 参考訳(メタデータ) (2024-03-03T04:46:21Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。