論文の概要: SOMP: Scalable Gradient Inversion for Large Language Models via Subspace-Guided Orthogonal Matching Pursuit
- arxiv url: http://arxiv.org/abs/2603.16761v1
- Date: Tue, 17 Mar 2026 16:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.424885
- Title: SOMP: Scalable Gradient Inversion for Large Language Models via Subspace-Guided Orthogonal Matching Pursuit
- Title(参考訳): SOMP: Subspace-Guided Orthogonal Matching Pursuitによる大規模言語モデルのスケーラブルなグラディエントインバージョン
- Authors: Yibo Li, Qiongxiu Li,
- Abstract要約: 我々は,疎信号回復問題として,集約された勾配からテキストを復元するスケーラブルな勾配インバージョンフレームワークSOMPを提案する。
複数のLLMファミリー、モデルスケール、および5つの言語にわたる実験により、SOMPは集約段階の体系において、先行手法を一貫して上回っていることが示された。
極端なアグリゲーション(B=128まで)の下でも、SOMPは意味のあるテキストを回復し、以前の攻撃がはるかに効果の低いレジームでプライバシー漏洩が持続する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 13.84840729553659
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gradient inversion attacks reveal that private training text can be reconstructed from shared gradients, posing a privacy risk to large language models (LLMs). While prior methods perform well in small-batch settings, scaling to larger batch sizes and longer sequences remains challenging due to severe signal mixing, high computational cost, and degraded fidelity. We present SOMP (Subspace-Guided Orthogonal Matching Pursuit), a scalable gradient inversion framework that casts text recovery from aggregated gradients as a sparse signal recovery problem. Our key insight is that aggregated transformer gradients retain exploitable head-wise geometric structure together with sample-level sparsity. SOMP leverages these properties to progressively narrow the search space and disentangle mixed signals without exhaustive search. Experiments across multiple LLM families, model scales, and five languages show that SOMP consistently outperforms prior methods in the aggregated-gradient regime.For long sequences at batch size B=16, SOMP achieves substantially higher reconstruction fidelity than strong baselines, while remaining computationally competitive. Even under extreme aggregation (up to B=128), SOMP still recovers meaningful text, suggesting that privacy leakage can persist in regimes where prior attacks become much less effective.
- Abstract(参考訳): グラディエント・インバージョン・アタック(Gradient inversion attack)は、プライベートトレーニングテキストを共有勾配から再構築できることを示し、大きな言語モデル(LLM)のプライバシーリスクを生じさせる。
従来の手法は小さなバッチ環境では良好に動作するが、信号の混合や計算コストの高騰、劣化した忠実さのため、より大きなバッチサイズと長いシーケンスへのスケーリングは依然として困難である。
我々は,疎信号回復問題として,集約された勾配からテキストを復元するスケーラブルな勾配逆変換フレームワークSOMP(Subspace-Guided Orthogonal Matching Pursuit)を提案する。
我々の重要な洞察は、集約されたトランスフォーマー勾配は、サンプルレベルの間隔とともに、利用可能な頭部幾何学的構造を保持することである。
SOMPはこれらの特性を活用して、探索空間を徐々に狭め、徹底的な探索を行わずに混合信号を切り離す。
複数のLLMファミリー, モデルスケール, および5言語を対象とした実験により, SOMPは, 集約段階における先行手法を一貫して上回り, バッチサイズB=16の長いシーケンスでは, 強いベースラインよりもはるかに高い再構成忠実度を実現し, 計算競争力を維持していることがわかった。
極端なアグリゲーション(B=128まで)の下でも、SOMPは意味のあるテキストを回復し、以前の攻撃がはるかに効果の低いレジームでプライバシー漏洩が持続する可能性があることを示唆している。
関連論文リスト
- Reconstructing Training Data from Adapter-based Federated Large Language Models [28.583571306465306]
低ランクアダプタは、新しい、悪用可能なリークチャネルを生成する。
我々は、アダプタベースのFedLLMのユニークな構造に合わせて、unordered-word-based Text Reconstruction (UTR)攻撃を提案する。
論文 参考訳(メタデータ) (2026-01-24T17:15:16Z) - Post-Hoc Split-Point Self-Consistency Verification for Efficient, Unified Quantification of Aleatoric and Epistemic Uncertainty in Deep Learning [5.996056764788456]
不確実性定量化(UQ)は、信頼できる深層学習には不可欠であるが、既存の手法は計算集約的であるか、タスク固有の部分的な見積もりのみを提供する。
本研究では,事前訓練したモデルの変更や再訓練を伴わずに,アレタリックおよびてんかんの不確実性を共同でキャプチャするポストホック・シングルフォワード・パス・フレームワークを提案する。
提案手法は,EmphSplit-Point Analysis (SPA) を用いて,予測残差を上下サブセットに分解し,各側でEmphMean Absolute Residuals (MAR) を演算する。
論文 参考訳(メタデータ) (2025-09-16T17:16:01Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Perfect Gradient Inversion in Federated Learning: A New Paradigm from the Hidden Subset Sum Problem [21.546869377126125]
フェデレートラーニング(FL)は、複数の組織間で協調学習するための一般的なパラダイムとして登場した。
FLで共有される勾配情報を用いて入力再構成問題をHidden Subset Sum problemとして定式化する。
我々の分析は、なぜより大きなバッチサイズで経験的入力再構成攻撃が劣化したのかを洞察する。
論文 参考訳(メタデータ) (2024-09-21T23:01:33Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Provably Convergent Subgraph-wise Sampling for Fast GNN Training [122.68566970275683]
収束保証,すなわちローカルメッセージ補償(LMC)を用いた新しいサブグラフワイズサンプリング手法を提案する。
LMCは、後方パスのメッセージパスの定式化に基づいて、後方パスで破棄されたメッセージを検索する。
大規模ベンチマーク実験により、LCCは最先端のサブグラフワイドサンプリング法よりもはるかに高速であることが示された。
論文 参考訳(メタデータ) (2023-03-17T05:16:49Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。