論文の概要: SASER: Stego attacks on open-source LLMs
- arxiv url: http://arxiv.org/abs/2510.10486v1
- Date: Sun, 12 Oct 2025 07:33:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.969613
- Title: SASER: Stego attacks on open-source LLMs
- Title(参考訳): SASER: Stego がオープンソース LLM を攻撃
- Authors: Ming Tan, Wei Li, Hu Tao, Hailong Ma, Aodi Liu, Qian Chen, Zilong Wang,
- Abstract要約: SASERはオープンソースの大規模言語モデル(LLM)に対する最初のステゴ攻撃である
ターゲットパラメータの特定、ペイロードの埋め込み、トリガのインジェクション、ペイロードのシーケンシャル実行を通じて影響を緩和する。
LlaMA2-7BとChatGLM3-6Bを量子化せずに実験したところ、SASERは既存のステゴ攻撃を最大98.1%上回った。
- 参考スコア(独自算出の注目度): 14.7664610166861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-source large language models (LLMs) have demonstrated considerable dominance over proprietary LLMs in resolving neural processing tasks, thanks to the collaborative and sharing nature. Although full access to source codes, model parameters, and training data lays the groundwork for transparency, we argue that such a full-access manner is vulnerable to stego attacks, and their ill-effects are not fully understood. In this paper, we conduct a systematic formalization for stego attacks on open-source LLMs by enumerating all possible threat models associated with adversary objectives, knowledge, and capabilities. Therein, the threat posed by adversaries with internal knowledge, who inject payloads and triggers during the model sharing phase, is of practical interest. We go even further and propose the first stego attack on open-source LLMs, dubbed SASER, which wields impacts through identifying targeted parameters, embedding payloads, injecting triggers, and executing payloads sequentially. Particularly, SASER enhances the attack robustness against quantization-based local deployment by de-quantizing the embedded payloads. In addition, to achieve stealthiness, SASER devises the performance-aware importance metric to identify targeted parameters with the least degradation of model performance. Extensive experiments on LlaMA2-7B and ChatGLM3-6B, without quantization, show that the stealth rate of SASER outperforms existing stego attacks (for general DNNs) by up to 98.1%, while achieving the same attack success rate (ASR) of 100%. More importantly, SASER improves ASR on quantized models from 0 to 100% in all settings. We appeal for investigations on countermeasures against SASER in view of the significant attack effectiveness.
- Abstract(参考訳): オープンソースの大規模言語モデル(LLM)は、協調的および共有的な性質のおかげで、ニューラル処理タスクの解決において、プロプライエタリなLLMに対してかなりの優位性を示している。
ソースコード、モデルパラメータ、トレーニングデータへの完全なアクセスは透明性の基盤となるが、そのような完全なアクセス方法はステゴ攻撃に対して脆弱であり、その悪影響は完全には理解されていない、と我々は主張する。
本稿では,敵の目標,知識,能力に関連する脅威モデルをすべて列挙し,オープンソースのLDMに対するステゴ攻撃の体系的形式化を行う。
したがって、モデル共有フェーズ中にペイロードやトリガーを注入する内部知識を持つ敵が引き起こす脅威は、実用的関心事である。
さらに、ターゲットパラメータの特定、ペイロードの埋め込み、トリガの注入、ペイロードのシーケンシャルな実行を通じて影響を緩和する、SASERと呼ばれるオープンソースのLSMに対する最初のステゴ攻撃を提案する。
特にSASERは、組み込みペイロードを非量子化することで、量子化ベースのローカルデプロイメントに対するアタックロバスト性を高める。
さらに、ステルスネスを達成するために、SASERは、目標パラメータを最小のモデル性能で識別するために、パフォーマンスに配慮した重要度尺度を考案した。
量子化のないLlaMA2-7BとChatGLM3-6Bの大規模な実験により、SASERの盗難率は既存のステゴ攻撃(一般的なDNN)を最大98.1%上回り、同じ攻撃成功率(ASR)を100%達成していることが示された。
さらに重要なのは、SASERはすべての設定において、量子化されたモデルのASRを0から100%改善する。
我々は,攻撃効果の高いSASERに対する対策に関する調査を訴える。
関連論文リスト
- An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - Mitigating Jailbreaks with Intent-Aware LLMs [42.48292327349576]
大規模言語モデル (LLMs) は、反対に作られた命令によってジェイルブレイク攻撃に弱いままである。
Intent-FTはシンプルで軽量な微調整手法で、LLMに応答する前に命令の基本的な意図を推測するように明示的に訓練する。
実証的には、Intent-FTは評価されたすべての攻撃カテゴリを一貫して緩和し、単一の攻撃が50%の成功率を超えない。
論文 参考訳(メタデータ) (2025-08-16T15:03:33Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Defending against Indirect Prompt Injection by Instruction Detection [109.30156975159561]
InstructDetectorは、LLMの動作状態を利用して潜在的なIPI攻撃を特定する、新しい検出ベースのアプローチである。
InstructDetectorは、ドメイン内設定で99.60%、ドメイン外設定で96.90%の検出精度を達成し、攻撃成功率をBIPIAベンチマークで0.03%に下げる。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。