論文の概要: Aggressive Compression Enables LLM Weight Theft
- arxiv url: http://arxiv.org/abs/2601.01296v1
- Date: Sat, 03 Jan 2026 22:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.174714
- Title: Aggressive Compression Enables LLM Weight Theft
- Title(参考訳): 攻撃圧縮によりLSMの重み付けが可能に
- Authors: Davis Brown, Juan-Pablo Rivera, Dan Hendrycks, Mantas Mazeika,
- Abstract要約: 流出攻撃は、敵がデータセンターからネットワーク越しにモデルウェイトを盗み出そうとする場所である。
我々は,大言語モデル (LLM) における単一因子, モデル重みの圧縮性, 浸透リスクを著しく高めることを示す。
我々は,3つの異なる方法でろ過リスクを低減するために設計された防衛法について検討した。
- 参考スコア(独自算出の注目度): 17.002521695414746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As frontier AIs become more powerful and costly to develop, adversaries have increasing incentives to steal model weights by mounting exfiltration attacks. In this work, we consider exfiltration attacks where an adversary attempts to sneak model weights out of a datacenter over a network. While exfiltration attacks are multi-step cyber attacks, we demonstrate that a single factor, the compressibility of model weights, significantly heightens exfiltration risk for large language models (LLMs). We tailor compression specifically for exfiltration by relaxing decompression constraints and demonstrate that attackers could achieve 16x to 100x compression with minimal trade-offs, reducing the time it would take for an attacker to illicitly transmit model weights from the defender's server from months to days. Finally, we study defenses designed to reduce exfiltration risk in three distinct ways: making models harder to compress, making them harder to 'find,' and tracking provenance for post-attack analysis using forensic watermarks. While all defenses are promising, the forensic watermark defense is both effective and cheap, and therefore is a particularly attractive lever for mitigating weight-exfiltration risk.
- Abstract(参考訳): フロンティアAIがより強力で開発に費用がかかるようになると、敵は外ろ過攻撃を仕掛けることでモデルの重量を盗むインセンティブを高めている。
本研究では,ネットワーク上のデータセンタからモデルウェイトを盗み出そうとする攻撃について考察する。
除染攻撃は多段階のサイバー攻撃である一方、モデル重みの圧縮性は大きな言語モデル(LLM)の除染リスクを著しく高めることが示される。
我々は、減圧制約を緩和することで、特に減圧のために圧縮を調整し、攻撃者が最小のトレードオフで16倍から100倍の圧縮を達成できることを示し、攻撃者がディフェンダーのサーバからモデル重みを数ヶ月から数日間違法に送信するのに要する時間を短縮する。
最後に,3つの異なる方法でろ過リスクを低減するために設計された防御法について検討した。
全ての防御は有望だが、法医学的な透かし防御は効果と安価であり、特に重量減少リスクを軽減するための魅力的なレバーである。
関連論文リスト
- RL Is a Hammer and LLMs Are Nails: A Simple Reinforcement Learning Recipe for Strong Prompt Injection [82.41836544860833]
RL-Hammerは、攻撃モデルを訓練するためのシンプルなレシピで、強力なプロンプトインジェクションを実行するために自動的に学習する。
我々は,高度に効果的で普遍的な攻撃を可能にする実用的手法のセットを提案する。
RL-Hammerは、GPT-4oに対して98%のASR、GPT-5に対して72%のASRに達した。
論文 参考訳(メタデータ) (2025-10-06T15:06:04Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Everyone Can Attack: Repurpose Lossy Compression as a Natural Backdoor
Attack [15.017990145799189]
本稿では,サイレントバックドア攻撃に容易にアクセスできるアルゴリズムを誰でも利用できることを示す。
この攻撃のため、敵は以前の作業で見られたトリガージェネレータを設計する必要はない。
論文 参考訳(メタデータ) (2023-08-31T12:38:29Z) - Unrestricted Adversarial Attacks on ImageNet Competition [70.8952435964555]
制限のない敵攻撃は一般的で実践的な方向であるが、徹底的に研究されていない。
我々はこの競争を、より効果的に非制限の敵攻撃アルゴリズムを探索するために組織する。
論文 参考訳(メタデータ) (2021-10-17T04:27:15Z) - Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。
攻撃者数の増加は攻撃者の攻撃成功率を減少させる。
そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文 参考訳(メタデータ) (2021-10-09T13:53:57Z) - LAFEAT: Piercing Through Adversarial Defenses with Latent Features [15.189068478164337]
特定の"ロバスト"モデルの潜在機能は、驚くほど敵の攻撃に影響を受けやすいことを示す。
勾配降下ステップ、すなわちLAFEATで潜伏機能を利用する統一$ell_infty$-normホワイトボックス攻撃アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-04-19T13:22:20Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。