論文の概要: Depth Gives a False Sense of Privacy: LLM Internal States Inversion
- arxiv url: http://arxiv.org/abs/2507.16372v1
- Date: Tue, 22 Jul 2025 09:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.041644
- Title: Depth Gives a False Sense of Privacy: LLM Internal States Inversion
- Title(参考訳): プライバシーを軽視するDepth: LLM内部状態のインバージョン
- Authors: Tian Dong, Yan Meng, Shaofeng Li, Guoxing Chen, Zhen Liu, Haojin Zhu,
- Abstract要約: 大きな言語モデル(LLM)は、日々のルーチンにますます統合されていますが、プライバシと安全性の懸念を生じさせています。
近年の研究では、データの局所性を確保するために、初期層推論をアウトソースする協調推論が提案されている。
逆入力の意味的類似性とトークンマッチング率を大幅に向上させる4つの逆攻撃を提案する。
- 参考スコア(独自算出の注目度): 17.639108495452785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly integrated into daily routines, yet they raise significant privacy and safety concerns. Recent research proposes collaborative inference, which outsources the early-layer inference to ensure data locality, and introduces model safety auditing based on inner neuron patterns. Both techniques expose the LLM's Internal States (ISs), which are traditionally considered irreversible to inputs due to optimization challenges and the highly abstract representations in deep layers. In this work, we challenge this assumption by proposing four inversion attacks that significantly improve the semantic similarity and token matching rate of inverted inputs. Specifically, we first develop two white-box optimization-based attacks tailored for low-depth and high-depth ISs. These attacks avoid local minima convergence, a limitation observed in prior work, through a two-phase inversion process. Then, we extend our optimization attack under more practical black-box weight access by leveraging the transferability between the source and the derived LLMs. Additionally, we introduce a generation-based attack that treats inversion as a translation task, employing an inversion model to reconstruct inputs. Extensive evaluation of short and long prompts from medical consulting and coding assistance datasets and 6 LLMs validates the effectiveness of our inversion attacks. Notably, a 4,112-token long medical consulting prompt can be nearly perfectly inverted with 86.88 F1 token matching from the middle layer of Llama-3 model. Finally, we evaluate four practical defenses that we found cannot perfectly prevent ISs inversion and draw conclusions for future mitigation design.
- Abstract(参考訳): 大きな言語モデル(LLM)は、日々のルーチンにますます統合されていますが、プライバシと安全性の懸念を生じさせています。
近年の研究では、初期層推論をアウトソースしてデータの局所性を確保するコラボレーティブ推論を提案し、内部ニューロンパターンに基づくモデル安全監査も導入している。
どちらの手法もLLMの内部状態(IS)を公開しており、これは従来、最適化の課題と深い層における高度に抽象的な表現のために入力に不可逆であると考えられてきた。
本研究では,逆入力の意味的類似性とトークンマッチング率を大幅に向上させる4つの逆攻撃を提案することで,この仮定に挑戦する。
具体的には、まず、低深度および高深度ISに適した2つのホワイトボックス最適化ベースの攻撃を開発する。
これらの攻撃は、2相反転過程を通じて、前処理で観測される制限である局所最小収束を避ける。
そして,より実用的なブラックボックス・ウェイト・アクセス下での最適化攻撃を,ソースと派生LLM間の転送可能性を利用して拡張する。
さらに、インバージョンを変換タスクとして扱う世代ベースの攻撃を導入し、インバージョンモデルを用いて入力を再構成する。
医療相談・コーディング支援データセットと6 LLMによる短時間・長時間のプロンプトの広範囲な評価により,我々の逆攻撃の有効性が検証された。
特に、4,112トンの長い医療相談プロンプトは、Llama-3モデルの中間層から86.88のF1トークンマッチングでほぼ完全に逆転することができる。
最後に,ISの逆転を完璧に防ぐことができず,今後の緩和設計の結論を導出する4つの実用的防御策を評価した。
関連論文リスト
- From Threat to Tool: Leveraging Refusal-Aware Injection Attacks for Safety Alignment [4.379304291229695]
LLM攻撃技術を応用したトレーニングフリーでモデルに依存しないフレームワークであるRefusal-Aware Adaptive Injection (RAAI)を紹介する。
RAAIは内部の拒絶信号を検出し、事前に定義されたフレーズを適応的に注入することで、有害で流用な完了を誘導する。
実験の結果,RAAIはLDMを効果的に脱獄させ,平均で2.15%から61.04%までの有害反応率を増加させた。
論文 参考訳(メタデータ) (2025-06-07T08:19:01Z) - Saffron-1: Safety Inference Scaling [69.61130284742353]
SAFFRONは、安全保証のために明示的に調整された、新しい推論スケーリングパラダイムである。
我々のアプローチの中心は、要求される報酬モデルの評価を著しく削減する乗算報酬モデル(MRM)の導入である。
トレーニング済みの多機能報酬モデル(Saffron-1)とそれに伴うトークンレベルの安全報酬データセット(Safety4M)を公開します。
論文 参考訳(メタデータ) (2025-06-06T18:05:45Z) - Detection Method for Prompt Injection by Integrating Pre-trained Model and Heuristic Feature Engineering [3.0823377252469144]
即時注射攻撃は 重大な セキュリティ上の脅威として現れました
既存の防御機構は、有効性と一般化性の間のトレードオフに直面している。
本稿では,デュアルチャネル機能融合検出フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T06:01:19Z) - An Attack to Break Permutation-Based Private Third-Party Inference Schemes for LLMs [31.561665382764076]
大規模言語モデル(LLM)の最近の進歩は、サードパーティの推論サービスの普及につながっている。
Secure Multiparty Computation (SMPC) のような既存のサードパーティーの推論手法は暗号方式に依存していることが多い。
隠れた状態からほぼ完全な精度で元のプロンプトを復元できる新しい復元手法を提案する。
論文 参考訳(メタデータ) (2025-05-23T19:39:18Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - An Early FIRST Reproduction and Improvements to Single-Token Decoding for Fast Listwise Reranking [50.81324768683995]
FIRSTは、学習からランクへの目的を統合し、最初の生成されたトークンのみのロジットを活用する新しいアプローチである。
我々は、FIRSTの評価をTRECディープラーニングデータセット(DL19-22)に拡張し、様々な領域でその堅牢性を検証する。
我々の実験は、単一トークンの高速リランクは、ドメイン外リランクの品質を損なうものではないことを確認した。
論文 参考訳(メタデータ) (2024-11-08T12:08:17Z) - Revisiting Backdoor Attacks against Large Vision-Language Models from Domain Shift [104.76588209308666]
本稿では,LVLMの学習訓練におけるバックドア攻撃について検討する。
我々は,攻撃の堅牢性を評価するために,新たな評価次元,バックドア領域の一般化を導入する。
本稿では,ドメイン非依存的トリガを臨界領域に注入するマルチモーダルアトリビューションバックドアアタック(MABA)を提案する。
論文 参考訳(メタデータ) (2024-06-27T02:31:03Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Efficient Combinatorial Optimization for Word-level Adversarial Textual
Attack [26.91645793706187]
自然言語処理で使用されるディープニューラルネットワークの脆弱性を明らかにするために、様々な単語レベルのテキスト攻撃手法が提案されている。
一般のケースでこの問題を解決するために,効率的な局所探索アルゴリズム (LS) を提案する。
LSは攻撃の成功率を高めるために,通常桁違いのクエリ数を大幅に削減できることを示す。
論文 参考訳(メタデータ) (2021-09-06T03:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。