論文の概要: Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks
- arxiv url: http://arxiv.org/abs/2507.02735v2
- Date: Mon, 10 Nov 2025 16:30:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 19:11:14.222229
- Title: Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks
- Title(参考訳): Meta SecAlign: プロンプトインジェクション攻撃に対するセキュアな基盤 LLM
- Authors: Sizhe Chen, Arman Zharmagambetov, David Wagner, Chuan Guo,
- Abstract要約: モデルレベルのディフェンスを内蔵した,初の完全オープンソースLCMであるMeta SecAlignを開発した。
我々は、9つのユーティリティベンチマークと7つのセキュリティベンチマークにおいて、一般的な知識、命令フォロー、エージェントに関する最も包括的な評価を行う。
私たちの最高のモデルであるMeta-SecAlign-70Bは、オープンソースのLCMのためのユーティリティセキュリティトレードオフの新たなフロンティアを確立します。
- 参考スコア(独自算出の注目度): 15.266469377135978
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prompt injection attack has been listed as the top-1 security threat to LLM-integrated applications, which interact with external environment data for complex tasks. The untrusted data may contain an injected prompt trying to arbitrarily manipulate the system. Model-level prompt injection defenses have shown strong effectiveness, but are currently deployed into commercial-grade models in a closed-source manner. We believe open-source secure models are needed by the AI security community, where co-development of attacks and defenses through open research drives scientific progress in mitigating prompt injection attacks. To this end, we develop Meta SecAlign, the first fully open-source LLM with built-in model-level defense that achieves commercial-grade performance, powerful enough for complex agentic tasks. We provide complete details of our training recipe, an improved version of the SOTA SecAlign defense. We perform the most comprehensive evaluation to date on 9 utility benchmarks and 7 security benchmarks on general knowledge, instruction following, and agentic workflows. Results show that Meta SecAlign, despite being trained on generic instruction-tuning samples only, surprisingly confers security in unseen downstream tasks, including tool-calling and web-navigation, in addition to general instruction-following. Our best model -- Meta-SecAlign-70B -- establishes a new frontier of utility-security trade-off for open-source LLMs. Even compared to closed-course commercial models such as GPT-5, our model is much securer than most of them. Below are links for the code (https://github.com/facebookresearch/Meta_SecAlign), Meta-SecAlign-70B(https://huggingface.co/facebook/Meta-SecAlign-70B), and Meta-SecAlign-8B(https://huggingface.co/facebook/Meta-SecAlign-8B) models.
- Abstract(参考訳): プロンプトインジェクション攻撃は、複雑なタスクのために外部環境データと対話するLLM統合アプリケーションのセキュリティ脅威のトップ1に挙げられている。
信頼できないデータは、システムを任意に操作しようとするインジェクションを含むかもしれない。
モデルレベルのプロンプトインジェクションディフェンスは強い効果を示してきたが、現在はクローズソース方式で商用モデルにデプロイされている。
AIセキュリティコミュニティでは、オープンリサーチによる攻撃と防御の共同開発が、迅速なインジェクション攻撃を緩和する科学的進歩を促進するため、オープンソースのセキュアなモデルが必要であると考えています。
この目的のために、我々はMeta SecAlignを開発した。Meta SecAlignは、モデルレベルのディフェンスを内蔵した最初の完全にオープンソースで、複雑なエージェントタスクに十分強力な商用レベルのパフォーマンスを実現する。
我々は、SOTA SecAlignディフェンスの改良版であるトレーニングレシピの完全な詳細を提供する。
我々は、9つのユーティリティベンチマークと7つのセキュリティベンチマークで、一般的な知識、命令フォロー、エージェントワークフローについて、これまでで最も包括的な評価を行いました。
結果から,Meta SecAlignは汎用的なインストラクションチューニングサンプルのみをトレーニングされているにも関わらず,ツールコールやWebナビゲーションなど,目に見えないダウンストリームタスクのセキュリティを,一般的なインストラクションフォローに加えて,驚くほど重視していることがわかった。
私たちの最高のモデルであるMeta-SecAlign-70Bは、オープンソースのLCMのためのユーティリティセキュリティトレードオフの新たなフロンティアを確立します。
GPT-5のようなクローズドコースの商用モデルと比較しても、我々のモデルはほとんどのモデルよりもはるかに安全である。
以下は、コードへのリンク(https://github.com/facebookresearch/Meta_SecAlign)、Meta-SecAlign-70B(https://huggingface.co/facebook/Meta-SecAlign-70B)、Meta-SecAlign-8B(https://huggingface.co/facebook/Meta-SecAlign-8B)である。
関連論文リスト
- Attractive Metadata Attack: Inducing LLM Agents to Invoke Malicious Tools [10.086284534400658]
大規模言語モデル(LLM)エージェントは、外部ツールを活用することで複雑な推論と意思決定において顕著な能力を示した。
我々はこれを、悪意のあるツールをLLMエージェントによって優先的に選択できる、新しくてステルスな脅威サーフェスとして認識する。
我々は,非常に魅力的だが構文的かつ意味論的に有効なツールメタデータを生成するブラックボックス・イン・コンテキスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-04T06:38:59Z) - A Survey on Model Extraction Attacks and Defenses for Large Language Models [55.60375624503877]
モデル抽出攻撃は、デプロイされた言語モデルに重大なセキュリティ脅威をもたらす。
この調査は、抽出攻撃と防御攻撃の包括的分類、機能抽出への攻撃の分類、データ抽出の訓練、およびプロンプトターゲット攻撃を提供する。
モデル保護,データプライバシ保護,迅速なターゲット戦略に編成された防御機構について検討し,その効果を異なる展開シナリオで評価する。
論文 参考訳(メタデータ) (2025-06-26T22:02:01Z) - AgentVigil: Generic Black-Box Red-teaming for Indirect Prompt Injection against LLM Agents [54.29555239363013]
本稿では,間接的なインジェクション脆弱性を自動的に検出し,悪用するための汎用的なブラックボックスファジリングフレームワークであるAgentVigilを提案する。
我々はAgentVigilをAgentDojoとVWA-advの2つの公開ベンチマークで評価し、o3-miniとGPT-4oに基づくエージェントに対して71%と70%の成功率を達成した。
攻撃を現実世界の環境に適用し、悪質なサイトを含む任意のURLに誘導するエージェントをうまく誘導する。
論文 参考訳(メタデータ) (2025-05-09T07:40:17Z) - Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。
我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文 参考訳(メタデータ) (2024-10-05T15:10:01Z) - BackdoorLLM: A Comprehensive Benchmark for Backdoor Attacks and Defenses on Large Language Models [27.59116619946915]
生成型大規模言語モデル(LLM)は、幅広いタスクにおいて最先端の結果を得たが、バックドア攻撃の影響を受けないままである。
BackdoorLLMは、テキストジェネレーションLLMのバックドア脅威を体系的に評価する最初の包括的なベンチマークである。
i) 標準化されたトレーニングと評価パイプラインを備えたベンチマークの統一リポジトリ; (ii) データ中毒、重毒、隠れ状態操作、チェーン・オブ・シークレット・ハイジャックなど、さまざまなアタック・モダリティのスイート; (iii) 8つの異なるアタック戦略にまたがる200以上の実験。
論文 参考訳(メタデータ) (2024-08-23T02:21:21Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Generative AI in Cybersecurity: A Comprehensive Review of LLM Applications and Vulnerabilities [1.0974825157329373]
本稿では,ジェネレーティブAIとLarge Language Models(LLMs)によるサイバーセキュリティの将来を概観する。
ハードウェア設計のセキュリティ、侵入検知、ソフトウェアエンジニアリング、設計検証、サイバー脅威インテリジェンス、マルウェア検出、フィッシング検出など、さまざまな領域にわたるLCMアプリケーションを探索する。
GPT-4, GPT-3.5, Mixtral-8x7B, BERT, Falcon2, LLaMA などのモデルの発展に焦点を当て, LLM の進化とその現状について概説する。
論文 参考訳(メタデータ) (2024-05-21T13:02:27Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - A Comprehensive Survey of Attack Techniques, Implementation, and Mitigation Strategies in Large Language Models [0.0]
この記事では、モデル自体に対する攻撃と、モデルアプリケーションに対する攻撃という2つの攻撃カテゴリについて説明する。
前者は専門知識、モデルデータへのアクセス、重要な実装時間が必要です。
後者は攻撃者にはよりアクセスしやすく、注目されている。
論文 参考訳(メタデータ) (2023-12-18T07:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。