論文の概要: Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks
- arxiv url: http://arxiv.org/abs/2602.14689v1
- Date: Mon, 16 Feb 2026 12:24:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.397591
- Title: Exposing the Systematic Vulnerability of Open-Weight Models to Prefill Attacks
- Title(参考訳): 攻撃に備えたオープンウェイトモデルの系統的脆弱性の抽出
- Authors: Lukas Struppek, Adam Gleave, Kellin Pelrine,
- Abstract要約: プレフィルアタックの現在における最大の実証研究について紹介する。
プレフィル攻撃は、全ての主要なオープンウェイトモデルに対して一貫して有効であることを示す。
オープンウェイトLSMにおけるプレフィル攻撃に対する防御の優先順位付けを,モデル開発者が緊急に必要としていることが示唆された。
- 参考スコア(独自算出の注目度): 12.712861882261924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the capabilities of large language models continue to advance, so does their potential for misuse. While closed-source models typically rely on external defenses, open-weight models must primarily depend on internal safeguards to mitigate harmful behavior. Prior red-teaming research has largely focused on input-based jailbreaking and parameter-level manipulations. However, open-weight models also natively support prefilling, which allows an attacker to predefine initial response tokens before generation begins. Despite its potential, this attack vector has received little systematic attention. We present the largest empirical study to date of prefill attacks, evaluating over 20 existing and novel strategies across multiple model families and state-of-the-art open-weight models. Our results show that prefill attacks are consistently effective against all major contemporary open-weight models, revealing a critical and previously underexplored vulnerability with significant implications for deployment. While certain large reasoning models exhibit some robustness against generic prefilling, they remain vulnerable to tailored, model-specific strategies. Our findings underscore the urgent need for model developers to prioritize defenses against prefill attacks in open-weight LLMs.
- Abstract(参考訳): 大きな言語モデルの能力が進歩し続けるにつれて、それらが誤用する可能性も高まっている。
クローズドソースモデルは一般的に外部防御に頼っているが、オープンウェイトモデルは有害な行動を緩和するために主に内部の保護に頼らなければならない。
以前は、入力ベースのジェイルブレイクとパラメータレベルの操作に主に焦点が当てられていた。
しかし、オープンウェイトモデルはプリフィルもネイティブにサポートしており、アタッカーは生成開始前に初期応答トークンを事前に定義することができる。
その可能性にもかかわらず、この攻撃ベクトルは系統的な注意をほとんど受けていない。
我々は、複数のモデルファミリーと最先端のオープンウェイトモデルにまたがる20以上の既存および新規戦略を評価し、プレフィル攻撃の現在までの最大の実証研究を提示する。
以上の結果から,すべての主要なオープンウェイトモデルに対してプレフィル攻撃が一貫して有効であることが示唆され,デプロイに重大な影響を及ぼす致命的かつ未発見の脆弱性が明らかになった。
ある種の大きな推論モデルは、一般的なプリフィルに対する堅牢性を示すが、それらは、調整されたモデル固有の戦略に弱いままである。
オープンウェイトLSMにおけるプレフィル攻撃に対する防御の優先順位付けを,モデル開発者が緊急に必要としていることが示唆された。
関連論文リスト
- The Surprising Effectiveness of Membership Inference with Simple N-Gram Coverage [71.8564105095189]
対象モデルからのテキスト出力のみに依存する会員推論攻撃であるN-Gram Coverage Attackを導入する。
我々はまず、N-Gram Coverage Attackが他のブラックボックスメソッドより優れている、様々な既存のベンチマークを実証する。
GPT-4oのような最近のモデルでは、メンバーシップ推論に対するロバスト性が向上していることがわかった。
論文 参考訳(メタデータ) (2025-08-13T08:35:16Z) - Graph Representation-based Model Poisoning on Federated Large Language Models [3.5233863453805143]
フェデレートされた大規模言語モデル(FedLLMs)は、データのプライバシを保持しながら、無線ネットワーク内で強力な生成機能を実現する。
本稿では,FedLLMのモデル中毒技術と既存の防御機構の最近の進歩について概説する。
さらに、グラフ表現に基づくモデル中毒(GRMP)は、良質なクライアント勾配間の高次相関を利用して、悪意ある更新を正当なものと区別できないものにする新興攻撃パラダイムである。
論文 参考訳(メタデータ) (2025-07-02T13:20:52Z) - Reformulation is All You Need: Addressing Malicious Text Features in DNNs [53.45564571192014]
本稿では,敵攻撃とバックドア攻撃の両方に対して有効な,統一的かつ適応的な防御フレームワークを提案する。
我々のフレームワークは、様々な悪意あるテキスト機能において、既存のサンプル指向の防御基準よりも優れています。
論文 参考訳(メタデータ) (2025-02-02T03:39:43Z) - Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Defense Against Model Extraction Attacks on Recommender Systems [53.127820987326295]
本稿では、モデル抽出攻撃に対するリコメンデータシステムに対する防御のために、グラディエントベースのランキング最適化(GRO)を導入する。
GROは、攻撃者の代理モデルの損失を最大化しながら、保護対象モデルの損失を最小限にすることを目的としている。
その結果,モデル抽出攻撃に対するGROの防御効果は良好であった。
論文 参考訳(メタデータ) (2023-10-25T03:30:42Z) - MF-CLIP: Leveraging CLIP as Surrogate Models for No-box Adversarial Attacks [65.86360607693457]
敵に事前の知識がないノンボックス攻撃は、実際的な関連性にもかかわらず、比較的過小評価されている。
本研究は,大規模ビジョン・ランゲージ・モデル(VLM)をノンボックス・アタックの実行のための代理モデルとして活用するための体系的な研究である。
理論的および実証的な分析により,バニラCLIPを直接サロゲートモデルとして適用するための識別能力の不足に起因するno-boxアタックの実行に重要な制限があることが判明した。
MF-CLIP(MF-CLIP: MF-CLIP)はCLIPのサロゲートモデルとしての有効性を高める新しいフレームワークである。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - Targeted Attacks on Timeseries Forecasting [0.6719751155411076]
本稿では,時系列予測モデルに対する指向性,振幅性,時間的標的攻撃の新たな定式化を提案する。
これらの攻撃は、出力予測の振幅と方向に特定の影響を与える。
実験結果から,時系列モデルに対する標的攻撃が有効であり,統計的類似性の観点からもより強力であることが示唆された。
論文 参考訳(メタデータ) (2023-01-27T06:09:42Z) - Improving Robustness to Model Inversion Attacks via Mutual Information
Regularization [12.079281416410227]
本稿では,モデル逆転攻撃に対する防御機構について検討する。
MIは、ターゲット機械学習モデルへのアクセスからトレーニングデータ配布に関する情報を推測することを目的とした、プライバシ攻撃の一種である。
我々はMI攻撃に対するMID(Multual Information Regularization based Defense)を提案する。
論文 参考訳(メタデータ) (2020-09-11T06:02:44Z) - Weight Poisoning Attacks on Pre-trained Models [103.19413805873585]
本研究は, バックドアを微調整した後に, バックドアを露出する脆弱性を伴って, 事前訓練した重量を注入した場合に, 重量中毒を発生させることが可能であることを示す。
感情分類,毒性検出,スパム検出に関する実験により,この攻撃は広く適用可能であり,深刻な脅威となることが示された。
論文 参考訳(メタデータ) (2020-04-14T16:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。