論文の概要: Verifying LLM Inference to Prevent Model Weight Exfiltration
- arxiv url: http://arxiv.org/abs/2511.02620v1
- Date: Tue, 04 Nov 2025 14:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 18:47:06.079991
- Title: Verifying LLM Inference to Prevent Model Weight Exfiltration
- Title(参考訳): モデル重み付きろ過防止のためのLLM推論の検証
- Authors: Roy Rinberg, Adam Karvonen, Alex Hoover, Daniel Reuter, Keri Warr,
- Abstract要約: 推論サーバを制御するアタッカーは、通常のモデル出力内に隠してモデルの重みを除去することができる。
本研究では,このような攻撃に対してモデル応答を正当に検証し,推論中に異常やバギーな動作を検出する方法について検討する。
我々は,セキュリティゲームとしてモデル抽出を形式化し,ステガノグラフ抽出を確実に軽減できる検証フレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.4698862238090828
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large AI models become increasingly valuable assets, the risk of model weight exfiltration from inference servers grows accordingly. An attacker controlling an inference server may exfiltrate model weights by hiding them within ordinary model outputs, a strategy known as steganography. This work investigates how to verify model responses to defend against such attacks and, more broadly, to detect anomalous or buggy behavior during inference. We formalize model exfiltration as a security game, propose a verification framework that can provably mitigate steganographic exfiltration, and specify the trust assumptions associated with our scheme. To enable verification, we characterize valid sources of non-determinism in large language model inference and introduce two practical estimators for them. We evaluate our detection framework on several open-weight models ranging from 3B to 30B parameters. On MOE-Qwen-30B, our detector reduces exfiltratable information to <0.5% with false-positive rate of 0.01%, corresponding to a >200x slowdown for adversaries. Overall, this work further establishes a foundation for defending against model weight exfiltration and demonstrates that strong protection can be achieved with minimal additional cost to inference providers.
- Abstract(参考訳): 大規模なAIモデルがますます価値ある資産になるにつれて、推論サーバからのモデル重み付けのリスクが増大する。
推論サーバを制御するアタッカーは、ステガノグラフィ(steganography)と呼ばれる戦略で、通常のモデル出力に隠してモデルの重みを隠蔽することができる。
本研究では,このような攻撃に対してモデル応答を検証し,さらに広い範囲において,推論中の異常やバギーな動作を検出する方法について検討する。
本稿では,セキュリティゲームとしてモデル抽出を形式化し,ステガノグラフ抽出を確実に軽減できる検証フレームワークを提案し,提案方式に関連する信頼前提を規定する。
検証を実現するため,大言語モデル推論における非決定性の有効源を特徴付けるとともに,2つの実用的な推定手法を導入する。
我々は,3Bパラメータから30Bパラメータまで,いくつかのオープンウェイトモデルを用いて検出フレームワークの評価を行った。
MOE-Qwen-30Bでは, 敵に対する200倍の速度低下に対応して, 偽陽性率0.01%で検出可能な情報を0.5%に削減した。
全体として、この研究はモデル重み付けに対する防御基盤をさらに確立し、推論プロバイダに最小限のコストで強力な保護が達成できることを示した。
関連論文リスト
- Watch the Weights: Unsupervised monitoring and control of fine-tuned LLMs [27.544312683007234]
細調整された大言語モデル(LLM)の理解・監視・制御のための新しい手法を提案する。
微調整モデルとそのベースモデルの間の重み差のトップ特異点が,新たに獲得した挙動に対応することを示す。
シークレットトリガーが存在する場合の安全メカニズムをバイパスするバックドアモデルでは、我々の手法は1.2%以下の偽陽性率で攻撃の最大100%を停止する。
論文 参考訳(メタデータ) (2025-07-31T21:04:12Z) - CopyrightShield: Enhancing Diffusion Model Security against Copyright Infringement Attacks [61.06621533874629]
拡散モデルは、攻撃者が戦略的に修正された非侵害画像をトレーニングセットに注入する著作権侵害攻撃に弱い。
まず、上記の攻撃に対して防御するための防御フレームワーク、PhiliptyShieldを提案する。
実験により,PhiliptyShieldは2つの攻撃シナリオで有毒なサンプル検出性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-12-02T14:19:44Z) - Watch the Watcher! Backdoor Attacks on Security-Enhancing Diffusion Models [65.30406788716104]
本研究では,セキュリティ強化拡散モデルの脆弱性について検討する。
これらのモデルは、シンプルで効果的なバックドア攻撃であるDIFF2に非常に感受性があることを実証する。
ケーススタディでは、DIFF2は、ベンチマークデータセットとモデル間で、パーフィケーション後の精度と認定精度の両方を著しく削減できることを示している。
論文 参考訳(メタデータ) (2024-06-14T02:39:43Z) - Model X-ray:Detecting Backdoored Models via Decision Boundary [62.675297418960355]
バックドア攻撃はディープニューラルネットワーク(DNN)に重大な脆弱性をもたらす
図形化された2次元(2次元)決定境界の解析に基づく新しいバックドア検出手法であるモデルX線を提案する。
提案手法は,クリーンサンプルが支配する意思決定領域とラベル分布の集中度に着目した2つの戦略を含む。
論文 参考訳(メタデータ) (2024-02-27T12:42:07Z) - G$^2$uardFL: Safeguarding Federated Learning Against Backdoor Attacks
through Attributed Client Graph Clustering [116.4277292854053]
Federated Learning (FL)は、データ共有なしで協調的なモデルトレーニングを提供する。
FLはバックドア攻撃に弱いため、有害なモデル重みがシステムの整合性を損なう。
本稿では、悪意のあるクライアントの識別を属性グラフクラスタリング問題として再解釈する保護フレームワークであるG$2$uardFLを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:15:04Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - CrowdGuard: Federated Backdoor Detection in Federated Learning [39.58317527488534]
本稿では,フェデレートラーニングにおけるバックドア攻撃を効果的に軽減する新しい防御機構であるCrowdGuardを提案する。
CrowdGuardでは、サーバロケーションのスタック化されたクラスタリングスキームを使用して、クライアントからのフィードバックに対するレジリエンスを高めている。
評価結果は、CrowdGuardがさまざまなシナリオで100%正の正の正の正の負の負の負の値を達成することを示す。
論文 参考訳(メタデータ) (2022-10-14T11:27:49Z) - Careful What You Wish For: on the Extraction of Adversarially Trained
Models [2.707154152696381]
最近の機械学習(ML)モデルに対する攻撃は、いくつかのセキュリティとプライバシの脅威を引き起こす。
本稿では,敵の学習したモデルに対する抽出攻撃を評価する枠組みを提案する。
本研究では, 自然学習環境下で得られたモデルよりも, 敵の訓練を受けたモデルの方が抽出攻撃に対して脆弱であることを示す。
論文 参考訳(メタデータ) (2022-07-21T16:04:37Z) - Increasing the Cost of Model Extraction with Calibrated Proof of Work [25.096196576476885]
モデル抽出攻撃では、敵はパブリックAPIを通じて公開された機械学習モデルを盗むことができる。
我々は,モデルの予測を読み取る前に,ユーザが作業の証明を完了するように提案する。
論文 参考訳(メタデータ) (2022-01-23T12:21:28Z) - DeepSight: Mitigating Backdoor Attacks in Federated Learning Through
Deep Model Inspection [26.593268413299228]
フェデレートラーニング(FL)では、複数のクライアントが、データを公開せずに、プライベートデータ上でニューラルネットワーク(NN)モデルを協調的にトレーニングすることができる。
DeepSightは、バックドア攻撃を緩和するための新しいモデルフィルタリングアプローチである。
モデルの性能に悪影響を及ぼすことなく、最先端のバックドア攻撃を軽減できることを示す。
論文 参考訳(メタデータ) (2022-01-03T17:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。