論文の概要: Mitigating Gradient Inversion Risks in Language Models via Token Obfuscation
- arxiv url: http://arxiv.org/abs/2602.15897v1
- Date: Wed, 11 Feb 2026 14:49:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.37574
- Title: Mitigating Gradient Inversion Risks in Language Models via Token Obfuscation
- Title(参考訳): トークン難読化による言語モデルの勾配反転リスクの軽減
- Authors: Xinguo Feng, Zhongkui Ma, Zihan Wang, Alsharif Abuadbba, Guangdong Bai,
- Abstract要約: 大規模言語モデルの訓練と微調整は、勾配反転攻撃(GIA)に対して脆弱である
GHOSTは、勾配、埋め込み、トークン空間にまたがる固有の接続を分離することで、GIAを中和するトークンレベルの難読化機構である。
GHOSTは重要な洞察に基づいて構築されている: トークン空間の大規模化により、意味的に区別されるが、元のトークンのシャドウ代用として機能する埋め込み型トークンが存在する。
- 参考スコア(独自算出の注目度): 21.00172111387017
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training and fine-tuning large-scale language models largely benefit from collaborative learning, but the approach has been proven vulnerable to gradient inversion attacks (GIAs), which allow adversaries to reconstruct private training data from shared gradients. Existing defenses mainly employ gradient perturbation techniques, e.g., noise injection or gradient pruning, to disrupt GIAs' direct mapping from gradient space to token space. However, these methods often fall short due to the retention of semantics similarity across gradient, embedding, and token spaces. In this work, we propose a novel defense mechanism named GHOST (gradient shield with obfuscated tokens), a token-level obfuscation mechanism that neutralizes GIAs by decoupling the inherent connections across gradient, embedding, and token spaces. GHOST is built upon an important insight: due to the large scale of the token space, there exist semantically distinct yet embedding-proximate tokens that can serve as the shadow substitutes of the original tokens, which enables a semantic disconnection in the token space while preserving the connection in the embedding and gradient spaces. GHOST comprises a searching step, which identifies semantically distinct candidate tokens using a multi-criteria searching process, and a selection step, which selects optimal shadow tokens to ensure minimal disruption to features critical for training by preserving alignment with the internal outputs produced by original tokens. Evaluation across diverse model architectures (from BERT to Llama) and datasets demonstrates the remarkable effectiveness of GHOST in protecting privacy (as low as 1% in recovery rate) and preserving utility (up to 0.92 in classification F1 and 5.45 in perplexity), in both classification and generation tasks against state-of-the-art GIAs and adaptive attack scenarios.
- Abstract(参考訳): 大規模言語モデルの訓練と微調整は、主に協調学習の恩恵を受けるが、このアプローチは、敵が共有勾配からプライベートトレーニングデータを再構築できる勾配反転攻撃(GIA)に対して脆弱であることが証明されている。
既存の防御は、GIAの勾配空間からトークン空間への直接マッピングを妨害するために、例えばノイズインジェクションや勾配プルーニングといった勾配摂動技術を用いている。
しかし、これらの手法は、勾配、埋め込み、トークン空間にまたがる意味論的類似性の保持のため、しばしば不足する。
本研究では,GHOST (gradient shield with obfuscated tokens) と呼ばれる新しい防御機構を提案する。
GHOSTは、トークン空間の大規模化により、オリジナルのトークンのシャドウ代用として機能し得る意味的に区別されるが、埋め込みと勾配空間の接続を保ちながら、トークン空間のセマンティックな切り離しを可能にする、埋め込みと近似のトークンが存在する。
GHOSTは、マルチ基準探索プロセスを用いて意味的に異なる候補トークンを識別する探索ステップと、オリジナルトークンが生成する内部出力との整合性を維持することにより、トレーニングに不可欠な機能に対する最小限の破壊を確実にする最適なシャドウトークンを選択する選択ステップとを備える。
さまざまなモデルアーキテクチャ(BERTからLlamaまで)とデータセットによる評価は、GHOSTがプライバシ保護(リカバリレートが1%以下)とユーティリティ保護(F1の最大0.92とパープレキシティの最大5.45)において、最先端のGIAと適応攻撃シナリオに対する分類および生成タスクにおいて顕著な効果を示している。
関連論文リスト
- TIP: Resisting Gradient Inversion via Targeted Interpretable Perturbation in Federated Learning [8.156452885913108]
フェデレートラーニング(FL)は、データの局所性を維持しながら協調的なモデルトレーニングを促進する。
勾配の交換により、システムはグラディエント・インバージョン・アタック(GIAs)に弱い。
本稿では、モデル解釈可能性と周波数領域解析を統合する新しい防御フレームワークTIPを提案する。
論文 参考訳(メタデータ) (2026-02-12T06:32:49Z) - Geometric-Disentangelment Unlearning [106.99160454669902]
忘れたサンプルへの勾配は しばしば 保持された知識を傷つける
本稿では,GU(Geometric-disment Unlearning)を提案する。
本手法はプラグ・アンド・プレイであり,既存の勾配に基づくアンラーニング手法と併用することで副作用を軽減できる。
論文 参考訳(メタデータ) (2025-11-21T09:58:25Z) - Unmasking Backdoors: An Explainable Defense via Gradient-Attention Anomaly Scoring for Pre-trained Language Models [6.182793047410624]
バックドア型事前学習言語モデルの内部挙動について検討する。
本稿では,トークンレベルの注意と勾配情報を組み合わせることで,異常スコアを構成する推論時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2025-10-05T20:15:56Z) - Semantic Concentration for Self-Supervised Dense Representations Learning [103.10708947415092]
イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
論文 参考訳(メタデータ) (2025-09-11T13:12:10Z) - Exploiting Discriminative Codebook Prior for Autoregressive Image Generation [54.14166700058777]
トークンベースの自己回帰画像生成システムは、まずトークンインデックスのシーケンスをコードブックでトークン化し、次にこれらのシーケンスを自己回帰パラダイムでモデル化する。
自己回帰生成モデルはインデックス値のみに基づいて訓練されるが、豊富なトークン類似性情報を含むコードブックにエンコードされた前者は利用されない。
近年の研究では、トークン上に単純なk平均クラスタリングを行い、コードブックを減らした生成モデルのトレーニングを容易にすることで、これを先に組み込もうとしている。
k-meansの代替として、差別的コードブック先駆者(DCPE)を提案する。
論文 参考訳(メタデータ) (2025-08-14T15:00:00Z) - Evaluating Selective Encryption Against Gradient Inversion Attacks [15.000605214632243]
グラディエント・インバージョン・アタックは、フェデレート学習のような分散トレーニングフレームワークに重大なプライバシー上の脅威をもたらす。
本稿では,最先端攻撃に対する重要な指標の異なる選択的暗号化手法を体系的に評価する。
論文 参考訳(メタデータ) (2025-08-06T07:31:43Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z) - LADSG: Label-Anonymized Distillation and Similar Gradient Substitution for Label Privacy in Vertical Federated Learning [15.24974575465626]
VFL(Vertical Federated Learning)のための統一的で軽量な防衛フレームワークであるLADSG(Lallel-Anonymized Defense with Substitution Gradient)を提案する。
LADSGはまず、ソフト蒸留により真のラベルを匿名化し、セマンティックな露出を減らす。
6つの実世界のデータセットに対する大規模な実験により、LADSGは3種類のラベル推論攻撃の成功率を30~60%削減し、計算オーバーヘッドを最小限に抑え、その実用性を示している。
論文 参考訳(メタデータ) (2025-06-07T10:10:56Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Contrastive Test-Time Adaptation [83.73506803142693]
本稿では,自己指導型コントラスト学習を活用して特徴学習を支援する新しい手法を提案する。
擬似ラベルをオンラインで作成し、ターゲットのフィーチャースペースに最も近い隣人の間でソフト投票によってそれらを洗練します。
我々の手法であるAdaContrastは、主要なベンチマーク上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-04-21T19:17:22Z) - Generating Out of Distribution Adversarial Attack using Latent Space
Poisoning [5.1314136039587925]
本稿では,実際の画像が破損しない敵の例を生成する新しいメカニズムを提案する。
潜在空間表現は、画像の固有構造を改ざんするために利用される。
勾配ベースの攻撃とは対照的に、潜時空間中毒は、トレーニングデータセットの独立かつ同一分布をモデル化する分類器の傾きを利用する。
論文 参考訳(メタデータ) (2020-12-09T13:05:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。