論文の概要: InjectLab: A Tactical Framework for Adversarial Threat Modeling Against Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18156v1
- Date: Wed, 16 Apr 2025 05:00:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.399745
- Title: InjectLab: A Tactical Framework for Adversarial Threat Modeling Against Large Language Models
- Title(参考訳): InjectLab: 大規模言語モデルに対する敵対的脅威モデリングのための戦術的フレームワーク
- Authors: Austin Howard,
- Abstract要約: 本稿では、言語モデルを操作するために使用される実世界の手法をマッピングする構造化オープンソースのマトリックスとして、InjectLabを紹介する。
このフレームワークはMITRE ATT&CKにインスパイアされ、プロンプト層における敵の振る舞いに特化している。
6つのコア戦略の下で編成された25以上のテクニックが含まれており、命令のオーバーライド、アイデンティティスワップ、マルチエージェントのエクスプロイトといった脅威をカバーしている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are changing the way people interact with technology. Tools like ChatGPT and Claude AI are now common in business, research, and everyday life. But with that growth comes new risks, especially prompt-based attacks that exploit how these models process language. InjectLab is a security framework designed to address that problem. This paper introduces InjectLab as a structured, open-source matrix that maps real-world techniques used to manipulate LLMs. The framework is inspired by MITRE ATT&CK and focuses specifically on adversarial behavior at the prompt layer. It includes over 25 techniques organized under six core tactics, covering threats like instruction override, identity swapping, and multi-agent exploitation. Each technique in InjectLab includes detection guidance, mitigation strategies, and YAML-based simulation tests. A Python tool supports easy execution of prompt-based test cases. This paper outlines the framework's structure, compares it to other AI threat taxonomies, and discusses its future direction as a practical, community-driven foundation for securing language models.
- Abstract(参考訳): 大きな言語モデル(LLM)は、人々が技術と対話する方法を変えています。
ChatGPTやClaude AIといったツールは現在、ビジネス、研究、日々の生活で一般的です。
しかし、この成長によって新たなリスク、特にこれらのモデルがどのように言語を処理しているかを悪用するプロンプトベースの攻撃がもたらされる。
InjectLabは、その問題を解決するために設計されたセキュリティフレームワークである。
本稿では,LLMの操作に使用される実世界の手法をマッピングする,構造化されたオープンソースマトリックスとしてInjectLabを紹介する。
このフレームワークはMITRE ATT&CKにインスパイアされ、プロンプト層における敵の振る舞いに特化している。
6つのコア戦略の下で編成された25以上のテクニックが含まれており、命令のオーバーライド、アイデンティティスワップ、マルチエージェントのエクスプロイトといった脅威をカバーしている。
InjectLabの各テクニックには、検出ガイダンス、緩和戦略、YAMLベースのシミュレーションテストが含まれている。
Pythonツールは、プロンプトベースのテストケースの簡易実行をサポートする。
本稿では、フレームワークの構造を概説し、他のAI脅威分類と比較し、言語モデルを保護するための実践的でコミュニティ主導の基盤としての今後の方向性について論じる。
関連論文リスト
- Con Instruction: Universal Jailbreaking of Multimodal Large Language Models via Non-Textual Modalities [76.9327488986162]
既存のマルチモーダル言語モデル(MLLM)に対する攻撃は、主に敵対的な画像を伴うテキストを通して指示を伝える。
我々はMLLMの能力を利用して、非テキスト命令、具体的には、我々の新しい手法であるCon Instructionによって生成された逆画像やオーディオを解釈する。
LLaVA-v1.5 (13B)で81.3%,86.6%の攻撃成功率を達成した。
論文 参考訳(メタデータ) (2025-05-31T13:11:14Z) - Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。
文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。
本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文 参考訳(メタデータ) (2024-10-02T14:47:05Z) - Well, that escalated quickly: The Single-Turn Crescendo Attack (STCA) [0.0]
本稿では,Single-Turn Crescendo Attack (STCA) と呼ばれる,大規模言語モデル(LLM)に対する新たな敵攻撃手法を提案する。
ルシノビッチ、セイラム、エルダン(2024年)によって導入されたマルチターン・クレシデンド攻撃法に基づき、STCAは単一の相互作用において同様の結果を得る。
論文 参考訳(メタデータ) (2024-09-04T23:45:10Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Jailbreaking Text-to-Image Models with LLM-Based Agents [15.582860145268553]
我々は、生成AIモデルをターゲットにした高度なマルチエージェントフレームワークを提案し、特に、組込み安全フィルタを用いたテキスト・ツー・イメージ(T2I)モデルに対するジェイルブレイク攻撃に焦点を当てた。
我々の評価では、Atlasはブラックボックス設定でマルチモーダル安全フィルタを備えた最先端のT2Iモデルをジェイルブレイクすることに成功した。
論文 参考訳(メタデータ) (2024-08-01T12:54:46Z) - MetaReflection: Learning Instructions for Language Agents using Past Reflections [11.028256182234017]
本稿では,言語エージェントの性能を向上させる新しいオフライン強化学習手法であるMetaReflectionを紹介する。
本稿では, 複雑な論理的推論, バイオメディカルセマンティックな類似性, オープンワールド質問応答, 脆弱性検出など, 複数領域にわたる評価によるメタリフレクションの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-13T10:51:43Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - A LLM Assisted Exploitation of AI-Guardian [57.572998144258705]
IEEE S&P 2023で発表された敵に対する最近の防衛であるAI-Guardianの堅牢性を評価する。
我々は、このモデルを攻撃するためのコードを書かず、代わりに、GPT-4に命令とガイダンスに従って全ての攻撃アルゴリズムを実装するよう促します。
このプロセスは驚くほど効果的で効率的であり、言語モデルでは、この論文の著者が実行したよりも高速に曖昧な命令からコードを生成することもあった。
論文 参考訳(メタデータ) (2023-07-20T17:33:25Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Not what you've signed up for: Compromising Real-World LLM-Integrated
Applications with Indirect Prompt Injection [64.67495502772866]
大規模言語モデル(LLM)は、様々なアプリケーションに統合されつつある。
本稿では、プロンプトインジェクション攻撃を用いて、攻撃者が元の命令をオーバーライドし、制御を採用する方法を示す。
我々は、コンピュータセキュリティの観点から、影響や脆弱性を体系的に調査する包括的な分類法を導出する。
論文 参考訳(メタデータ) (2023-02-23T17:14:38Z) - MOCA: A Modular Object-Centric Approach for Interactive Instruction
Following [19.57344182656879]
本稿では,タスクを視覚認識と行動ポリシーに分離するモジュールアーキテクチャを提案する。
提案手法をALFREDベンチマークで評価し,先行技術より優れていることを実証的に検証した。
論文 参考訳(メタデータ) (2020-12-06T07:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。