論文の概要: Beyond the Benchmark: Innovative Defenses Against Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2512.16307v1
- Date: Thu, 18 Dec 2025 08:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.98761
- Title: Beyond the Benchmark: Innovative Defenses Against Prompt Injection Attacks
- Title(参考訳): ベンチマークを超えて: プロンプトインジェクション攻撃に対する革新的防御
- Authors: Safwan Shaheer, G. M. Refatul Islam, Mohammad Rafid Hamid, Tahsin Zaman Jilan,
- Abstract要約: 本稿では,小型オープンソースモデル,特にLLaMAファミリに焦点を当てる。
自動防御を実現できる新しい防御機構を導入する。
LLMにおけるゴールハイジャックの脆弱性を軽減するために提案した改善を実証的に実証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this fast-evolving area of LLMs, our paper discusses the significant security risk presented by prompt injection attacks. It focuses on small open-sourced models, specifically the LLaMA family of models. We introduce novel defense mechanisms capable of generating automatic defenses and systematically evaluate said generated defenses against a comprehensive set of benchmarked attacks. Thus, we empirically demonstrated the improvement proposed by our approach in mitigating goal-hijacking vulnerabilities in LLMs. Our work recognizes the increasing relevance of small open-sourced LLMs and their potential for broad deployments on edge devices, aligning with future trends in LLM applications. We contribute to the greater ecosystem of open-source LLMs and their security in the following: (1) assessing present prompt-based defenses against the latest attacks, (2) introducing a new framework using a seed defense (Chain Of Thoughts) to refine the defense prompts iteratively, and (3) showing significant improvements in detecting goal hijacking attacks. Out strategies significantly reduce the success rates of the attacks and false detection rates while at the same time effectively detecting goal-hijacking capabilities, paving the way for more secure and efficient deployments of small and open-source LLMs in resource-constrained environments.
- Abstract(参考訳): 本研究は,LSMの急激な発展領域において,インジェクション攻撃による重大なセキュリティリスクについて論じる。
小型のオープンソースモデル、特にLLaMAファミリに焦点を当てている。
本稿では, 自動防御を生成できる新しい防御機構を導入し, 網羅的なベンチマーク攻撃に対して, それらの防衛を体系的に評価する。
そこで本研究では,LSMにおける目標ハイジャック脆弱性の軽減に向けたアプローチによって提案された改善を実証的に実証した。
我々の研究は、小規模なオープンソースLLMの関連性とエッジデバイスへの広範な展開の可能性を認識し、今後のLLMアプリケーションの動向に合わせている。
我々は,(1)現在の攻撃に対する即時防御の評価,(2)シードディフェンス(思考の連鎖)を用いた新たな枠組みの導入,(3)目標ハイジャック攻撃の検出における大幅な改善を示す,オープンソースLDMのエコシステムとセキュリティに寄与する。
アウト戦略は、攻撃の成功率と偽検出率を著しく低下させ、同時にゴールハイジャック能力を効果的に検出し、リソース制約のある環境において、より安全で効率的なLLMの配置方法を確立した。
関連論文リスト
- Adversarial Attack-Defense Co-Evolution for LLM Safety Alignment via Tree-Group Dual-Aware Search and Optimization [51.12422886183246]
大規模言語モデル(LLM)は、Webサービスにおいて急速に発展し、社会的リスクを増幅しつつ、前例のない能力を提供してきた。
既存の作業は、分離されたジェイルブレイク攻撃または静的防御に重点を置いており、現実世界のWebコンテキストにおける進化する脅威とセーフガードの間の動的な相互作用を無視している。
ACE-Safetyは、2つの重要な革新的手順をシームレスに統合することにより、攻撃と防御モデルを協調的に最適化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-11-24T15:23:41Z) - Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks [15.266469377135978]
モデルレベルのディフェンスを内蔵した,初の完全オープンソースLCMであるMeta SecAlignを開発した。
我々は、9つのユーティリティベンチマークと7つのセキュリティベンチマークにおいて、一般的な知識、命令フォロー、エージェントに関する最も包括的な評価を行う。
私たちの最高のモデルであるMeta-SecAlign-70Bは、オープンソースのLCMのためのユーティリティセキュリティトレードオフの新たなフロンティアを確立します。
論文 参考訳(メタデータ) (2025-07-03T15:47:13Z) - Hoist with His Own Petard: Inducing Guardrails to Facilitate Denial-of-Service Attacks on Retrieval-Augmented Generation of LLMs [8.09404178079053]
Retrieval-Augmented Generation (RAG)は、Large Language Models (LLM)を外部の知識ベースと統合し、新たなセキュリティリスクを導入しながら出力品質を改善する。
RAGの脆弱性に関する既存の研究は、典型的には不正な知識や悪意のあるテキストを注入する検索メカニズムの活用に重点を置いており、誤った出力を誘導している。
本稿では, LLM の安全ガードレールの脆弱性を明らかにする。LLM の安全ガードレールは保護のために設計されているが, 敵による攻撃ベクトルとして利用することもできる。この脆弱性に基づいて, 本脆弱性を生かして, ガードレールの可利用性を損なうために, リバース・オブ・サービス・アタックである MutedRAG を提案する。
論文 参考訳(メタデータ) (2025-04-30T14:18:11Z) - CheatAgent: Attacking LLM-Empowered Recommender Systems via LLM Agent [32.958798200220286]
大言語モデル(LLM)を利用したレコメンデーションシステム(RecSys)は、パーソナライズされたユーザーエクスペリエンスに大きな進歩をもたらした。
LLMの人間的な能力を活用して、CheatAgentと呼ばれる新たな攻撃フレームワークを提案する。
提案手法は,入力修正の最小化による最大衝撃に対する挿入位置をまず同定する。
論文 参考訳(メタデータ) (2025-04-13T05:31:37Z) - The VLLM Safety Paradox: Dual Ease in Jailbreak Attack and Defense [56.32083100401117]
Vision Large Language Models(VLLMs)のジェイルブレイク攻撃に対する脆弱性は、驚くにあたらない。
これらの攻撃に対する最近の防御機構は、ベンチマーク評価においてほぼ飽和状態に達している。
論文 参考訳(メタデータ) (2024-11-13T07:57:19Z) - A Survey of Attacks on Large Vision-Language Models: Resources, Advances, and Future Trends [78.3201480023907]
LVLM(Large Vision-Language Models)は、多モーダルな理解と推論タスクにまたがる顕著な能力を示す。
LVLMの脆弱性は比較的過小評価されており、日々の使用において潜在的なセキュリティリスクを生じさせる。
本稿では,既存のLVLM攻撃の様々な形態について概説する。
論文 参考訳(メタデータ) (2024-07-10T06:57:58Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。