論文の概要: Stealing User Prompts from Mixture of Experts
- arxiv url: http://arxiv.org/abs/2410.22884v1
- Date: Wed, 30 Oct 2024 10:25:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:29:28.061485
- Title: Stealing User Prompts from Mixture of Experts
- Title(参考訳): 専門家の混在からユーザプロンプトを盗む
- Authors: Itay Yona, Ilia Shumailov, Jamie Hayes, Nicholas Carlini,
- Abstract要約: 敵がExpert-Choice-Routingを利用して被害者のプロンプトを完全に開示する方法を示す。
これは、ユーザープロンプトを抽出するためにアーキテクチャ上の欠陥を利用する最初の攻撃である。
- 参考スコア(独自算出の注目度): 62.83486196376189
- License:
- Abstract: Mixture-of-Experts (MoE) models improve the efficiency and scalability of dense language models by routing each token to a small number of experts in each layer. In this paper, we show how an adversary that can arrange for their queries to appear in the same batch of examples as a victim's queries can exploit Expert-Choice-Routing to fully disclose a victim's prompt. We successfully demonstrate the effectiveness of this attack on a two-layer Mixtral model, exploiting the tie-handling behavior of the torch.topk CUDA implementation. Our results show that we can extract the entire prompt using $O({VM}^2)$ queries (with vocabulary size $V$ and prompt length $M$) or 100 queries on average per token in the setting we consider. This is the first attack to exploit architectural flaws for the purpose of extracting user prompts, introducing a new class of LLM vulnerabilities.
- Abstract(参考訳): Mixture-of-Experts (MoE)モデルは、各トークンを各レイヤの少数の専門家にルーティングすることで、高密度言語モデルの効率性とスケーラビリティを向上させる。
本稿では,被害者のクエリと同一の事例にクエリを配置できる相手が,Expert-Choice-Routingを利用して被害者のプロンプトを完全に開示する方法について述べる。
我々は,この攻撃の有効性を2層混合モデルで実証し,トーチ・トップクCUDA実装のタイリング動作を利用した。
この結果から,$O({VM}^2)$クエリ(vocabulary size $V$, prompt length $M$)あるいは100のクエリをトークン単位の平均値で抽出できることがわかった。
これは、ユーザープロンプトを抽出するためにアーキテクチャ上の欠陥を利用する最初の攻撃であり、新しいLLM脆弱性が導入されている。
関連論文リスト
- Solving Token Gradient Conflict in Mixture-of-Experts for Large Vision-Language Model [20.979790612689992]
大規模視覚言語モデル(LVLM)の研究において、Mixture-of-Experts(MoE)が注目を集めている。
LVLMの既存のMoEメソッドは、異なる専門家に異なるトークンを扱うように促し、通常、各トークンのルーティングを予測するためにルータを使用する。
本稿ではトークンレベルの勾配解析に基づく新しい手法,すなわち解決トークンのグラディエント・コンフリクト(STGC)を提案する。
論文 参考訳(メタデータ) (2024-06-28T13:20:17Z) - Prompt Optimization with EASE? Efficient Ordering-aware Automated Selection of Exemplars [66.823588073584]
大規模言語モデル(LLM)は、現実世界のアプリケーションで印象的な機能を示している。
これらの卓越した作品の品質は、パフォーマンスに大きな影響を与えます。
既存の方法は、先行注文がパフォーマンスに与える影響を適切に説明できない。
論文 参考訳(メタデータ) (2024-05-25T08:23:05Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Sweeping Heterogeneity with Smart MoPs: Mixture of Prompts for LLM Task
Adaptation [45.90925587972781]
大規模言語モデル(LLM)は、テキスト要約や数学的問題など、さまざまなタスクを解く能力を持つ。
計算コストが高いため、現在のトレンドは、プロンプトインストラクションチューニングを使用して、モノリシックで事前訓練されたLLMを、新しい-しかししばしば個別の-下流タスクのためによりよく調整することである。
MoPはマルチタスク、マルチソースシナリオにおいて、プロンプトトレーニングの"干渉"を同時に緩和することができる。
論文 参考訳(メタデータ) (2023-10-04T14:11:12Z) - Detecting Language Model Attacks with Perplexity [0.0]
LLM(Large Language Models)を含む新たなハックが出現し、敵の接尾辞を利用してモデルを騙し、危険な応答を発生させた。
難易度とトークン長を訓練したLight-GBMは偽陽性を解消し、テストセットのほとんどの敵攻撃を正しく検出した。
論文 参考訳(メタデータ) (2023-08-27T15:20:06Z) - On the Representation Collapse of Sparse Mixture of Experts [102.83396489230375]
専門家のまばらな混合は、一定の計算オーバーヘッドを必要としながら、より大きなモデルキャパシティを提供する。
入力トークンを隠された表現に従ってベストマッチした専門家に分散するためにルーティング機構を使用する。
しかし、そのようなルーティングメカニズムを学ぶことで、専門家のセントロイドを中心にトークンのクラスタリングが促進され、表現の崩壊の傾向が示唆される。
論文 参考訳(メタデータ) (2022-04-20T01:40:19Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Improving Robustness and Generality of NLP Models Using Disentangled
Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。
本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。
提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文 参考訳(メタデータ) (2020-09-21T02:48:46Z) - Are L2 adversarial examples intrinsically different? [14.77179227968466]
理論的解析により、本質的に逆例と正規入力を区別できる性質を解明する。
我々は,MNISTで最大99%,CIFARで89%,ImageNetサブセットで最大87%の分類精度を,$L$攻撃に対して達成した。
論文 参考訳(メタデータ) (2020-02-28T03:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。