論文の概要: Prompt Inversion Attack against Collaborative Inference of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.09022v2
- Date: Thu, 13 Mar 2025 05:55:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 12:09:03.782012
- Title: Prompt Inversion Attack against Collaborative Inference of Large Language Models
- Title(参考訳): 大規模言語モデルの協調推論に対するプロンプト反転攻撃
- Authors: Wenjie Qu, Yuguang Zhou, Yongji Wu, Tingsong Xiao, Binhang Yuan, Yiming Li, Jiaheng Zhang,
- Abstract要約: 本稿では、悪意のある参加者が、前の参加者が送信したアクティベーションを通じて入力プロンプトを回復しようとする、プロンプト・インバージョン・アタック(PIA)の概念を紹介する。
Llama-65Bモデルを用いてSkytraxデータセットの88.4%のトークン精度を実現する。
- 参考スコア(独自算出の注目度): 14.786666134508645
- License:
- Abstract: Large language models (LLMs) have been widely applied for their remarkable capability of content generation. However, the practical use of open-source LLMs is hindered by high resource requirements, making deployment expensive and limiting widespread development. The collaborative inference is a promising solution for this problem, in which users collaborate by each hosting a subset of layers and transmitting intermediate activation. Many companies are building collaborative inference platforms to reduce LLM serving costs, leveraging users' underutilized GPUs. Despite widespread interest in collaborative inference within academia and industry, the privacy risks associated with LLM collaborative inference have not been well studied. This is largely because of the challenge posed by inverting LLM activation due to its strong non-linearity. In this paper, to validate the severity of privacy threats in LLM collaborative inference, we introduce the concept of prompt inversion attack (PIA), where a malicious participant intends to recover the input prompt through the activation transmitted by its previous participant. Extensive experiments show that our PIA method substantially outperforms existing baselines. For example, our method achieves an 88.4\% token accuracy on the Skytrax dataset with the Llama-65B model when inverting the maximum number of transformer layers, while the best baseline method only achieves 22.8\% accuracy. The results verify the effectiveness of our PIA attack and highlights its practical threat to LLM collaborative inference systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コンテンツ生成の顕著な能力に広く応用されている。
しかし、オープンソースのLLMの実践的利用は、高いリソース要求によって妨げられ、デプロイメントが高価になり、広範な開発が制限される。
ユーザーは各レイヤのサブセットをホストし、中間的なアクティベーションを伝達する。
多くの企業は、LLM提供コストを削減し、ユーザの未使用のGPUを活用するために、共同推論プラットフォームを構築している。
学術・産業における協調推論への幅広い関心にもかかわらず、LLMの協調推論に関連するプライバシーリスクは十分に研究されていない。
これは、LLMの活性化が強い非線形性のために逆転することによる課題が主な原因である。
本稿では,LLM協調推論におけるプライバシ・脅威の深刻度を検証するために,悪意のある被疑者が,前者によって送信されたアクティベーションを通じて入力プロンプトを回復しようとするプロンプト・インバージョン・アタック(PIA)の概念を導入する。
大規模な実験により,本手法は既存のベースラインを著しく上回ることがわかった。
Llama-65Bモデルを用いてSkytraxデータセット上の88.4\%のトークン精度を最大トランスフォーマー層数反転時に達成し、最高のベースライン法は22.8\%の精度しか達成しない。
その結果, PIA攻撃の有効性を検証し, LLM協調推論システムに対する実用的脅威を強調した。
関連論文リスト
- FedEAT: A Robustness Optimization Framework for Federated LLMs [16.64125481942056]
我々は,クライアントLSMの埋め込み空間における対角的トレーニングを適用した新しいフレームワークであるFedEAT(Federated Embedding space Adversarial Training)を提案する。
実験により,フェデレートLLMのロバスト性は最小限の性能損失で効果的に向上することが示された。
論文 参考訳(メタデータ) (2025-02-17T14:55:46Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - CE-CoLLM: Efficient and Adaptive Large Language Models Through Cloud-Edge Collaboration [1.6021932740447968]
大規模言語モデル(LLM)は、エンドユーザに人間のような知性を提供することで、驚くべき成功を収めた。
LLMは高い計算資源を必要としており、様々な性能目標を満たすためにそれらをデプロイすることは困難である。
CE-CoLLMは,エッジのエンドユーザに対して,効率的かつ適応的なLLM推論をサポートする,新しいクラウドエッジコラボレーションフレームワークである。
論文 参考訳(メタデータ) (2024-11-05T06:00:27Z) - FactorLLM: Factorizing Knowledge via Mixture of Experts for Large Language Models [50.331708897857574]
本稿では,高度に訓練された高密度FFNを余分なサブネットワークに分解する新しいアプローチであるFacterLLMを紹介する。
FactorLLMは、最大85%のモデル性能を確保しながら、推論速度を30%以上増加させながら、ソースモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-15T16:45:16Z) - Ollabench: Evaluating LLMs' Reasoning for Human-centric Interdependent Cybersecurity [0.0]
大規模言語モデル(LLM)は、複雑な相互依存型サイバーセキュリティシステムを表現することによってエージェントベースモデリングを強化する可能性がある。
既存の評価フレームワークは、しばしば、相互依存型サイバーセキュリティに不可欠なヒューマンファクターと認知コンピューティング能力を見落としている。
シナリオベースの情報セキュリティコンプライアンスや非コンプライアンス問題に答える上で,LLMの正確性,無駄性,一貫性を評価する新しい評価フレームワークであるOllaBenchを提案する。
論文 参考訳(メタデータ) (2024-06-11T00:35:39Z) - Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration [70.09561665520043]
本稿では,多エージェント協調のための新しいフレームワークを提案する。これは,効率的な自己調整のための強化アドバンテージフィードバック(Reinforced Advantage feedback, ReAd)を導入する。
強化学習における重み付き回帰を多エージェントシステムに拡張して理論的解析を行う。
Over-AIと難解なRoCoBenchの実験は、ReAdが成功率のベースラインを超え、エージェントの相互作用ステップを著しく減少させることを示している。
論文 参考訳(メタデータ) (2024-05-23T08:33:19Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Rethinking Machine Unlearning for Large Language Models [85.92660644100582]
大規模言語モデル(LLM)の領域における機械学習の研究
このイニシアチブは、望ましくないデータの影響(機密情報や違法情報など)と関連するモデル機能を排除することを目的としている。
論文 参考訳(メタデータ) (2024-02-13T20:51:58Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。