論文の概要: TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
- arxiv url: http://arxiv.org/abs/2602.06911v1
- Date: Fri, 06 Feb 2026 18:04:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.512857
- Title: TamperBench: Systematically Stress-Testing LLM Safety Under Fine-Tuning and Tampering
- Title(参考訳): TamperBench: 微調整と改ざんによるストレステスト LLM の安全性
- Authors: Saad Hossain, Tom Tseng, Punya Syon Pandey, Samanvay Vajpayee, Matthew Kowal, Nayeema Nonta, Samuel Simko, Stephen Casper, Zhijing Jin, Kellin Pelrine, Sirisha Rambhatla,
- Abstract要約: 大規模言語モデル(LLM)のタンパー抵抗を評価するためのフレームワークであるTamperBenchを紹介する。
TamperBenchは、最先端の重量空間微調整攻撃と潜時空間表現攻撃をキュレートする。
私たちはTamperBenchを使って、防衛強化型を含む21個のオープンウェイトLCMを、9つの改ざん脅威に対して評価する。
- 参考スコア(独自算出の注目度): 18.943719866462512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As increasingly capable open-weight large language models (LLMs) are deployed, improving their tamper resistance against unsafe modifications, whether accidental or intentional, becomes critical to minimize risks. However, there is no standard approach to evaluate tamper resistance. Varied data sets, metrics, and tampering configurations make it difficult to compare safety, utility, and robustness across different models and defenses. To this end, we introduce TamperBench, the first unified framework to systematically evaluate the tamper resistance of LLMs. TamperBench (i) curates a repository of state-of-the-art weight-space fine-tuning attacks and latent-space representation attacks; (ii) enables realistic adversarial evaluation through systematic hyperparameter sweeps per attack-model pair; and (iii) provides both safety and utility evaluations. TamperBench requires minimal additional code to specify any fine-tuning configuration, alignment-stage defense method, and metric suite while ensuring end-to-end reproducibility. We use TamperBench to evaluate 21 open-weight LLMs, including defense-augmented variants, across nine tampering threats using standardized safety and capability metrics with hyperparameter sweeps per model-attack pair. This yields novel insights, including effects of post-training on tamper resistance, that jailbreak-tuning is typically the most severe attack, and that Triplet emerges as a leading alignment-stage defense. Code is available at: https://github.com/criticalml-uw/TamperBench
- Abstract(参考訳): ますます有能なオープンウェイトな大規模言語モデル(LLM)が配備されるにつれて、事故や意図に関わらず、安全でない修正に対する改ざん抵抗を改善してリスクを最小限に抑えることが重要となる。
しかし, タンパー抵抗の評価には標準的アプローチは存在しない。
不要なデータセット、メトリクス、改ざん構成は、さまざまなモデルとディフェンスの安全性、実用性、堅牢性を比較するのを困難にします。
この目的のために, LLMのタンパー抵抗を体系的に評価する最初の統一フレームワークであるTamperBenchを紹介する。
タンパーベンチ
i) 最先端の重量空間微調整攻撃と潜時空間表現攻撃のリポジトリをキュレートする。
(ii) 攻撃モデル対当たりの系統的ハイパーパラメータスイープによる現実的対角評価を可能にする。
(iii)安全性と実用性の評価の両方を提供する。
TamperBenchは、エンドツーエンドの再現性を確保しながら、微調整設定、アライメントステージディフェンスメソッド、メトリックスイートを指定するために、最小限の追加コードを必要とする。
我々はTamperBenchを使用して、モデル攻撃ペア当たりのハイパーパラメータスイープを備えた標準安全と能力メトリクスを使用して、9つの改ざん脅威に対して、防御強化された変種を含む21個のオープンウェイトLCMを評価する。
これは、ポストトレーニングがタンパー抵抗に与える影響、ジェイルブレイク訓練が通常最も深刻な攻撃であり、トリプレットがアライメントステージ防衛の先駆けとして現れるという新しい洞察をもたらす。
コードは、https://github.com/ criticalml-uw/TamperBenchで入手できる。
関連論文リスト
- ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - AntiDote: Bi-level Adversarial Training for Tamper-Resistant LLMs [7.176280545594957]
現在の安全対策は、オープンウェイトな大規模言語モデルの一般的な機能を維持するのに苦労している。
本稿では,2段階最適化手法であるAntiDoteを紹介した。
我々は,52件のレッドチーム攻撃に対して,このアプローチを検証した。
論文 参考訳(メタデータ) (2025-09-06T16:03:07Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - MISLEADER: Defending against Model Extraction with Ensembles of Distilled Models [56.09354775405601]
モデル抽出攻撃は、クエリアクセスを通じてブラックボックスモデルの機能を複製することを目的としている。
既存のディフェンスでは、アタッカークエリにはオフ・オブ・ディストリビューション(OOD)サンプルがあることを前提としており、不審な入力を検出し破壊することができる。
OOD仮定に依存しない新しい防衛戦略であるMISLEADERを提案する。
論文 参考訳(メタデータ) (2025-06-03T01:37:09Z) - SafeTuneBed: A Toolkit for Benchmarking LLM Safety Alignment in Fine-Tuning [6.740032154591022]
ベンチマークとツールキットであるSafeTuneBedを導入し、微調整と防御の評価を統一する。
SafeTuneBedは、感情分析、質問回答、マルチステップ推論、オープンな命令タスクにまたがる、複数の微調整データセットの多様なリポジトリをキュレートする。
これは、アライメントステージの免疫、訓練中の安全ガード、訓練後の修復など、最先端の防衛の統合を可能にする。
論文 参考訳(メタデータ) (2025-05-31T19:00:58Z) - STShield: Single-Token Sentinel for Real-Time Jailbreak Detection in Large Language Models [31.35788474507371]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対してますます脆弱になっている。
本稿では,リアルタイムジェイルブレイク判定のための軽量フレームワークSTShieldを紹介する。
論文 参考訳(メタデータ) (2025-03-23T04:23:07Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [23.793583584784685]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全対策を回避し、有害または不適切な出力を誘発するジェイルブレイク攻撃の影響を受ける。
LATPC(Latent-space Adrial Training with Post-aware framework)を紹介する。
LATPCは有害な入力と良性入力を対比することにより安全性に重要な潜伏次元を同定し、ターゲットの拒絶特徴除去攻撃を適応的に構築する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。