論文の概要: Good-Enough LLM Obfuscation (GELO)
- arxiv url: http://arxiv.org/abs/2603.05035v1
- Date: Thu, 05 Mar 2026 10:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.184798
- Title: Good-Enough LLM Obfuscation (GELO)
- Title(参考訳): Good-Enough LLM Obfuscation (GELO)
- Authors: Anatoly Belikov, Ilya Fedotov,
- Abstract要約: 大きな言語モデル(LLM)は、デバイスメモリに読み取りアクセスする敵がKVキャッシュや隠された状態を観測できるような共有アクセラレーターで提供されることが多い。
本稿では、信頼できない加速器観測からの情報漏洩を制限するプライバシー保護推論プロトコルであるGELOを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly served on shared accelerators where an adversary with read access to device memory can observe KV caches and hidden states, threatening prompt privacy for open-source models. Cryptographic protections such as MPC and FHE offer strong guarantees but remain one to two orders of magnitude too slow for interactive inference, while static obfuscation schemes break under multi-run statistical attacks once the model is known. We present GELO (Good-Enough LLM Obfuscation), a lightweight protocol for privacy-preserving inference that limits information leakage from untrusted accelerator observations by hiding hidden states with fresh, per-batch invertible mixing. For each offloaded projection, the TEE samples a random matrix A, forms $U = AH$, offloads U and weights W to the accelerator, and then applies $A^-1$ on return, so that $A^-1 ((AH)W ) = HW$ and outputs are unchanged. Because mixing is never reused across batches, the attacker faces only a single-batch blind source separation problem. We analyze information leakage and introduce two practical defenses: (i) non-orthogonal mixing to mask Gram matrices, and (ii) orthogonal mixing augmented with a small fraction of high-energy "shield" vectors that pollute higher-order statistics. On Llama-2 7B, GELO preserves float32 outputs exactly, closely matches low-precision baselines, offloads the dominant matrix multiplications with about 20-30% latency overhead, and defeats a range of ICA/BSS and anchor-based attacks.
- Abstract(参考訳): 大きな言語モデル(LLM)は、デバイスメモリへの読み取りアクセスを持つ敵がKVキャッシュと隠れた状態を観察し、オープンソースモデルの迅速なプライバシを脅かすような共有アクセラレータで、ますます提供されています。
MPCやFHEのような暗号的保護は強力な保証を提供するが、対話的推論には1~2桁の遅さが残る。
GELO(Good-Enough LLM Obfuscation)は、信頼できない加速器観測からの情報漏洩を制限する軽量プロトコルである。
各オフロードされたプロジェクションに対して、TEEはランダム行列 A をサンプリングし、$U = AH$ を生成し、U とウェイト W を加速器にオフロードし、返却時に$A^-1$ を適用し、$A^-1 ((AH)W ) = HW$ となり、出力は変化しない。
混合はバッチ間で再利用されないため、攻撃者は単一バッチのブラインドソース分離問題に直面する。
我々は情報漏洩を分析し、2つの実践的防御を導入する。
(i)マスクグラム行列への非直交混合、及び
(II)高次統計を汚染する少数の高エネルギー「シールド」ベクトルを用いた直交混合法。
Llama-2 7Bでは、GELOはfloat32出力を正確に保存し、低精度のベースラインと密に一致し、行列乗算を約20~30%の遅延オーバーヘッドでオフロードし、ICA/BSSおよびアンカーベース攻撃を破る。
関連論文リスト
- Cachemir: Fully Homomorphic Encrypted Inference of Generative Large Language Model with KV Cache [15.25568382221441]
Cachemir は KV Cache Accelerated Homomorphic Encrypted LLM Inference Regime である。
Cachemir は CPU 上で MOAI (ICML'25) と THOR (CCS'25) をそれぞれ高速化し,GPU 上で 100 秒未満で Llama-3-8B の出力トークンを生成することを実証した。
論文 参考訳(メタデータ) (2026-02-12T01:01:38Z) - Membership Inference Attacks Against Fine-tuned Diffusion Language Models [14.835693946869178]
Diffusion Language Models (DLMs) は自己回帰型言語モデルに代わる有望な代替品である。
本稿では,DLMにおけるMIA(Commanship Inference Attacks)の脆弱性を初めて体系的に調査する。
サマ(サブセット・アグリゲート・メンバーシップ・アタック)を導入し、ロバストアグリゲーションによるスパース信号問題に対処する。
論文 参考訳(メタデータ) (2026-01-27T23:40:07Z) - Amulet: Fast TEE-Shielded Inference for On-Device Model Protection [15.936694312917512]
オンデバイス機械学習(ML)では、モデルのプライバシに関する新たなセキュリティ上の懸念が導入されている。
ユーザデバイス上で価値あるトレーニングされたMLモデルをストアすることは、敵による潜在的な抽出に公開する。
MLモデル保護のための高速TEEシールドオンデバイス推論フレームワークであるAmuletを提案する。
論文 参考訳(メタデータ) (2025-12-08T12:22:51Z) - MaskPro: Linear-Space Probabilistic Learning for Strict (N:M)-Sparsity on Large Language Models [53.36415620647177]
半構造化された空間は、M$M$の重みからN$の要素を戦略的に保持することで、有望なソリューションを提供する。
既存の(N:M)互換のアプローチは通常、かなりのエラーに悩まされるルールベースの階層的な欲求探索と、禁止的なトレーニングコストを引き起こす勾配駆動学習の2つのカテゴリに分類される。
MaskProという新しい線形空間確率的フレームワークを提案する。これは、M$連続重みごとに事前のカテゴリー分布を学習し、その後、この分布を活用して(N:M)スパーシリティを$N$-wayサンプリングを通じて生成することを目的としている。
論文 参考訳(メタデータ) (2025-06-15T15:02:59Z) - BitHydra: Towards Bit-flip Inference Cost Attack against Large Language Models [22.695878922889715]
モデル重みを直接修正し,漏洩したLLMの全ユーザに対して持続的オーバーヘッドを誘発する,最初のビットフリップ推論コスト攻撃を導入する。
この攻撃パラダイムをBitHydraでインスタンス化し、(1)シーケンス終端トークン(EOS)を抑制する損失を最小限に抑え、(2)EOS埋め込みベクトルに焦点をあてた効率的かつ効果的なクリティカルビット探索を利用する。
論文 参考訳(メタデータ) (2025-05-22T13:36:00Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - Cross-modality Information Check for Detecting Jailbreaking in Multimodal Large Language Models [17.663550432103534]
マルチモーダル大言語モデル(MLLM)は、多モーダル情報を包括的に理解するためにLLMの能力を拡張する。
これらのモデルは、悪意のあるユーザーがターゲットモデルの安全アライメントを壊し、誤解を招く、有害な回答を発生させることができるジェイルブレイク攻撃の影響を受けやすい。
本稿では,悪質な摂動画像入力を識別するプラグイン・アンド・プレイのジェイルブレイク検出装置であるCIDERを提案する。
論文 参考訳(メタデータ) (2024-07-31T15:02:46Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Composite Adversarial Attacks [57.293211764569996]
敵対攻撃は、機械学習(ML)モデルを欺くための技術です。
本論文では,攻撃アルゴリズムの最適組み合わせを自動的に探索するための複合攻撃法(Composite Adrial Attack,CAA)を提案する。
CAAは11の防衛でトップ10の攻撃を破り、時間の経過は少ない。
論文 参考訳(メタデータ) (2020-12-10T03:21:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。