論文の概要: Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs
- arxiv url: http://arxiv.org/abs/2508.06601v1
- Date: Fri, 08 Aug 2025 17:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.467821
- Title: Deep Ignorance: Filtering Pretraining Data Builds Tamper-Resistant Safeguards into Open-Weight LLMs
- Title(参考訳): 深部無知: オープンウェイトLLMへのタンパ抵抗ガード構築のための事前トレーニングデータフィルタリング
- Authors: Kyle O'Brien, Stephen Casper, Quentin Anthony, Tomek Korbak, Robert Kirk, Xander Davies, Ishan Mishra, Geoffrey Irving, Yarin Gal, Stella Biderman,
- Abstract要約: オープンウェイトAIシステムは、ウェイトやアクティベーションを変更することで有害な振る舞いを効果的に引き出すことができる攻撃の改ざんに弱い。
既存の安全ファインチューニング手法は、数十段階以上の敵のファインチューニングに抵抗するオープンウェイトモデルを作るのに苦労している。
スケーラブルなデータフィルタリングのためのマルチステージパイプラインを導入し、バイオスリートプロキシの知識を最小化するための、トラクタブルで効果的な方法を提供していることを示す。
- 参考スコア(独自算出の注目度): 38.563399720627714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-weight AI systems offer unique benefits, including enhanced transparency, open research, and decentralized access. However, they are vulnerable to tampering attacks which can efficiently elicit harmful behaviors by modifying weights or activations. Currently, there is not yet a robust science of open-weight model risk management. Existing safety fine-tuning methods and other post-training techniques have struggled to make LLMs resistant to more than a few dozen steps of adversarial fine-tuning. In this paper, we investigate whether filtering text about dual-use topics from training data can prevent unwanted capabilities and serve as a more tamper-resistant safeguard. We introduce a multi-stage pipeline for scalable data filtering and show that it offers a tractable and effective method for minimizing biothreat proxy knowledge in LLMs. We pretrain multiple 6.9B-parameter models from scratch and find that they exhibit substantial resistance to adversarial fine-tuning attacks on up to 10,000 steps and 300M tokens of biothreat-related text -- outperforming existing post-training baselines by over an order of magnitude -- with no observed degradation to unrelated capabilities. However, while filtered models lack internalized dangerous knowledge, we find that they can still leverage such information when it is provided in context (e.g., via search tool augmentation), demonstrating a need for a defense-in-depth approach. Overall, these findings help to establish pretraining data curation as a promising layer of defense for open-weight AI systems.
- Abstract(参考訳): オープンウェイトAIシステムは、透明性の向上、オープンリサーチ、分散アクセスなど、ユニークなメリットを提供する。
しかし、重みやアクティベーションを変更することで有害な行動を効果的に引き起こすことができる攻撃の改ざんに弱い。
現在、オープンウェイトモデルのリスク管理に関する堅牢な科学がまだ存在しない。
既存の安全微調整法や他のポストトレーニング技術は、LLMを数十段階以上の敵の微調整に耐性を持たせるのに苦労している。
本稿では,学習データから多目的トピックに関するテキストをフィルタリングすることで,不要な能力を防止し,より改ざんしやすい保護具として機能するかどうかを検討する。
スケーラブルなデータフィルタリングのためのマルチステージパイプラインを導入し、LLMにおけるバイオスリートプロキシの知識を最小化するための、トラクタブルで効果的な方法を提供していることを示す。
我々は、複数の6.9Bパラメーターモデルをスクラッチから事前訓練し、最大10,000ステップと300万のバイオスリート関連テキストに対する敵の微調整攻撃に対してかなりの抵抗を示し、既存のトレーニング後のベースラインを桁違いに上回っている。
しかし,フィルタされたモデルには内部的な危険な知識が欠けているが,そのような情報がコンテキストで提供される場合(例えば,検索ツールの強化によって)も有効であることに気付き,より詳細なアプローチの必要性が示された。
全体として、これらの発見は、オープンウェイトなAIシステムの防衛の有望なレイヤとして、事前学習データキュレーションを確立するのに役立ちます。
関連論文リスト
- Tuning without Peeking: Provable Privacy and Generalization Bounds for LLM Post-Training [43.534588451833066]
本稿では,大規模言語モデル(LLM)に対する進化的ブラックボックス手法であるBBoxERについて紹介する。
我々は、一般化、差分プライバシー、データ中毒攻撃への感受性、および攻撃の抽出に関する強力な理論的境界を提供する。
BBoxERは、事前訓練されたLLM上で動作し、制限やプライバシに敏感な環境へのデプロイに適した軽量でモジュール化された拡張を提供する。
論文 参考訳(メタデータ) (2025-07-02T14:29:30Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - LiteLMGuard: Seamless and Lightweight On-Device Prompt Filtering for Safeguarding Small Language Models against Quantization-induced Risks and Vulnerabilities [1.460362586787935]
LiteLMGuard (LLMG) は、量子化されたSLMのリアルタイムかつ迅速な防御を提供する。
LLMGは、深層学習(DL)に基づく即時応答可能性分類タスクとしてプロンプトフィルタリングを形式化する。
LLMGは、ダイレクトインストラクションとジェイルブレイク攻撃戦略を含む有害なプロンプトの87%以上を防御している。
論文 参考訳(メタデータ) (2025-05-08T19:58:41Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Deep PackGen: A Deep Reinforcement Learning Framework for Adversarial
Network Packet Generation [3.5574619538026044]
人工知能(AI)と機械学習(ML)アルゴリズムの最近の進歩は、サイバーセキュリティ運用センター(ディフェンダー)のセキュリティ姿勢を高めている。
近年の研究では、フローベースとパケットベースの特徴の摂動がMLモデルを欺くことが報告されているが、これらのアプローチには限界がある。
我々のフレームワークであるDeep PackGenは、逆パケットを生成するために深層強化学習を採用し、文献におけるアプローチの限界を克服することを目的としている。
論文 参考訳(メタデータ) (2023-05-18T15:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。