論文の概要: Privacy-Preserving Prompt Injection Detection for LLMs Using Federated Learning and Embedding-Based NLP Classification
- arxiv url: http://arxiv.org/abs/2511.12295v1
- Date: Sat, 15 Nov 2025 17:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.807772
- Title: Privacy-Preserving Prompt Injection Detection for LLMs Using Federated Learning and Embedding-Based NLP Classification
- Title(参考訳): フェデレーションラーニングと埋め込み型NLP分類を用いたLDMのプライバシ保護プロンプト注入検出
- Authors: Hasini Jayathilaka,
- Abstract要約: 本稿では,フェデレート学習と埋め込みに基づく分類に基づくプライバシー保護型インジェクション検出フレームワークを提案する。
その結果, 生データを露出することなく効果的なインジェクション検出が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt injection attacks are an emerging threat to large language models (LLMs), enabling malicious users to manipulate outputs through carefully designed inputs. Existing detection approaches often require centralizing prompt data, creating significant privacy risks. This paper proposes a privacy-preserving prompt injection detection framework based on federated learning and embedding-based classification. A curated dataset of benign and adversarial prompts was encoded with sentence embedding and used to train both centralized and federated logistic regression models. The federated approach preserved privacy by sharing only model parameters across clients, while achieving detection performance comparable to centralized training. Results demonstrate that effective prompt injection detection is feasible without exposing raw data, making this one of the first explorations of federated security for LLMs. Although the dataset is limited in scale, the findings establish a strong proof-of-concept and highlight new directions for building secure and privacy-aware LLM systems.
- Abstract(参考訳): プロンプトインジェクション攻撃は、大規模言語モデル(LLM)に対する新たな脅威であり、悪意のあるユーザが慎重に設計された入力によって出力を操作できるようにする。
既存の検出アプローチでは、しばしばプロンプトデータを集中化する必要がある。
本稿では,フェデレート学習と埋め込みに基づく分類に基づくプライバシー保護型インジェクション検出フレームワークを提案する。
ベニグニグニグニグニグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミグミ
フェデレートされたアプローチは、クライアント間でモデルパラメータのみを共有することによってプライバシを保持し、集中的なトレーニングに匹敵する検出パフォーマンスを達成する。
その結果, 実データを公開することなく効果的なインジェクション検出が可能であることが示され, LLMのフェデレーションセキュリティに関する最初の調査の1つとなった。
データセットは大規模に制限されているが、この発見は強力な概念実証を確立し、セキュアでプライバシに配慮したLLMシステムを構築するための新たな方向性を強調している。
関連論文リスト
- Retracing the Past: LLMs Emit Training Data When They Get Lost [18.852558767604823]
大規模言語モデルにおけるトレーニングデータの記憶は、プライバシーと著作権に関する重大な懸念を生じさせる。
本稿では,記憶されたデータを抽出するための基本的枠組みであるCIAについて紹介する。
論文 参考訳(メタデータ) (2025-10-27T03:48:24Z) - Better Privilege Separation for Agents by Restricting Data Types [6.028799607869068]
大規模言語モデル(LLM)のタイプ指向特権分離を提案する。
我々は、信頼できないコンテンツをキュレートされたデータ型に変換することによって、LDMがサードパーティのデータと対話する能力を制限する。
生文字列とは異なり、各データ型はスコープとコンテントに制限されており、プロンプトインジェクションの可能性を排除している。
論文 参考訳(メタデータ) (2025-09-30T08:20:50Z) - SABRE-FL: Selective and Accurate Backdoor Rejection for Federated Prompt Learning [1.3312007032203859]
フェデレート・プロンプト・ラーニングにおけるバックドア・アタックの最初の研究について述べる。
悪意のあるクライアントが視覚的に認識不能で学習可能なノイズトリガーを入力画像に注入すると、グローバルなプロンプト学習者はターゲットの誤分類に対して脆弱になる。
この脆弱性に触発されたSABRE-FLは,非分布データに基づいてオフラインでトレーニングされた埋め込み空間異常検知器を用いて,有害な即時更新をフィルタリングする軽量モジュールディフェンスである。
論文 参考訳(メタデータ) (2025-06-25T23:15:20Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Detecting and Filtering Unsafe Training Data via Data Attribution with Denoised Representation [8.963777475007669]
大規模言語モデル(LLM)は、少数の安全でないトレーニングデータに対して非常に敏感である。
本稿では,新しい表現型データ属性手法であるDenoized Representation (DRA)を提案する。
論文 参考訳(メタデータ) (2025-02-17T03:50:58Z) - Attention Tracker: Detecting Prompt Injection Attacks in LLMs [62.247841717696765]
大型言語モデル (LLM) は様々なドメインに革命をもたらしたが、インジェクション攻撃に弱いままである。
そこで本研究では,特定の注意点が本来の指示から注入指示へと焦点を移す,注意散逸効果の概念を紹介した。
本研究では,アテンション・トラッカーを提案する。アテンション・トラッカーは,インジェクション・アタックを検出するために,インストラクション上の注意パターンを追跡する訓練不要な検出手法である。
論文 参考訳(メタデータ) (2024-11-01T04:05:59Z) - Exploiting Low-confidence Pseudo-labels for Source-free Object Detection [54.98300313452037]
Source-free Object Detection (SFOD) は、ラベル付きソースデータにアクセスすることなく、未ラベルのターゲットドメインにソーストレーニングされた検出器を適応することを目的としている。
現在のSFOD法は適応相におけるしきい値に基づく擬似ラベル手法を用いる。
疑似ラベルを最大限に活用するために,高信頼度と低信頼度しきい値を導入する手法を提案する。
論文 参考訳(メタデータ) (2023-10-19T12:59:55Z) - FedCC: Robust Federated Learning against Model Poisoning Attacks [0.0]
フェデレートラーニング(Federated Learning)は、プライバシの問題に対処するために設計された分散フレームワークである。
新たなアタックサーフェスを導入しており、データは独立に、そしてIdentically Distributedである場合、特に困難である。
我々は,モデル中毒に対する簡易かつ効果的な新しい防御アルゴリズムであるFedCCを提案する。
論文 参考訳(メタデータ) (2022-12-05T01:52:32Z) - Trash to Treasure: Harvesting OOD Data with Cross-Modal Matching for
Open-Set Semi-Supervised Learning [101.28281124670647]
オープンセット半教師付き学習(Open-set SSL)では、ラベルなしデータにOOD(Out-of-distribution)サンプルを含む、難しいが実用的なシナリオを調査する。
我々は、OODデータの存在を効果的に活用し、特徴学習を増強する新しいトレーニングメカニズムを提案する。
我々のアプローチは、オープンセットSSLのパフォーマンスを大幅に向上させ、最先端技術よりも大きなマージンで性能を向上します。
論文 参考訳(メタデータ) (2021-08-12T09:14:44Z) - Privacy-preserving Traffic Flow Prediction: A Federated Learning
Approach [61.64006416975458]
本稿では,フェデレート学習に基づくGated Recurrent Unit Neural Network Algorithm (FedGRU) というプライバシ保護機械学習手法を提案する。
FedGRUは、現在の集中学習方法と異なり、安全なパラメータアグリゲーション機構を通じて、普遍的な学習モデルを更新する。
FedGRUの予測精度は、先進的なディープラーニングモデルよりも90.96%高い。
論文 参考訳(メタデータ) (2020-03-19T13:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。