論文の概要: Toward Secure Tuning: Mitigating Security Risks from Instruction Fine-Tuning
- arxiv url: http://arxiv.org/abs/2410.04524v2
- Date: Mon, 17 Feb 2025 02:32:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:05:21.552142
- Title: Toward Secure Tuning: Mitigating Security Risks from Instruction Fine-Tuning
- Title(参考訳): セキュアチューニングに向けて - インストラクションファインチューニングによるセキュリティリスクの軽減
- Authors: Yanrui Du, Sendong Zhao, Jiawei Cao, Ming Ma, Danyang Zhao, Shuren Qi, Fenglei Fan, Ting Liu, Bing Qin,
- Abstract要約: SWATと呼ばれる新しいセキュアチューニング戦略を導入する。
モジュールレベルのパラメータがセキュリティ機能空間のドリフトにどのように影響するかを分析することで、Mods_Robと呼ばれるモジュールのロバストなサブセットを特定します。
私たちのSWAT戦略は、Mods_Robをウォームアップして、最小限のセキュリティリスクで低レベルの機能をキャプチャし、続いて、最適なタスクパフォーマンスを達成するためにすべてのパラメータをトレーニングすることから始まります。
- 参考スコア(独自算出の注目度): 25.153530916709002
- License:
- Abstract: Instruction fine-tuning has emerged as a critical technique for customizing Large Language Models (LLMs) to specific applications. However, recent studies have highlighted significant security vulnerabilities in fine-tuned LLMs. Existing defense efforts focus more on pre-training and post-training methods, yet there remains underexplored in in-training methods. To fill this gap, we introduce a novel secure-tuning strategy called SWAT. By analyzing how module-level parameters (e.g. Q/K/V/O) affect the security feature space drift, we identify a robust subset of modules, termed Mods_Rob. Our SWAT strategy begins by warming up Mods_Rob to capture low-level features with minimal security risks, followed by training all parameters to achieve optimal task performance. Essentially, this strategy shifts the early learning burden more from global parameters to Mods_Rob, reducing update magnitudes of the non-robust subset. Across various datasets, scenarios, and LLMs, our strategy has demonstrated significant success in mitigating security risks while preserving task performance. Importantly, it can be seamlessly integrated with pre-training and post-training methods, leading to greater improvements.
- Abstract(参考訳): インストラクションの微調整は、LLM(Large Language Models)を特定のアプリケーションにカスタマイズするための重要なテクニックとして登場した。
しかし、最近の研究では、微調整LDMの重大なセキュリティ脆弱性が強調されている。
既存の防衛努力は、事前訓練と後訓練の方法に重点を置いているが、イントレーニングの方法については未検討のままである。
このギャップを埋めるために、SWATと呼ばれる新しいセキュアチューニング戦略を導入する。
モジュールレベルのパラメータ(例えばQ/K/V/O)がセキュリティ機能空間のドリフトにどのように影響するかを分析することで、Mods_Robと呼ばれるモジュールの頑健なサブセットを特定する。
私たちのSWAT戦略は、Mods_Robをウォームアップして、最小限のセキュリティリスクで低レベルの機能をキャプチャし、続いて、最適なタスクパフォーマンスを達成するためにすべてのパラメータをトレーニングすることから始まります。
基本的に、この戦略は、早期学習の負担をグローバルパラメータからMods_Robにシフトさせ、非ロバストサブセットの更新サイズを小さくする。
さまざまなデータセットやシナリオ,LLMなどを通じて,当社の戦略は,タスクパフォーマンスを保ちながらセキュリティリスクを軽減する上で大きな成功を収めています。
重要なことは、事前トレーニングと後トレーニングのメソッドとシームレスに統合することができ、改善につながります。
関連論文リスト
- R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。
SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。
これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。
無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文 参考訳(メタデータ) (2024-07-16T12:21:29Z) - Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。
本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。
そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文 参考訳(メタデータ) (2024-06-05T13:06:33Z) - From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。
このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。
我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文 参考訳(メタデータ) (2024-05-30T09:42:54Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability [25.750371424096436]
大規模言語モデル(LLM)は、様々なアプリケーションにますます多くデプロイされている。
我々の研究は、既存の防衛戦略がLLMに主に拒絶指向の姿勢を採用することを示唆している。
ユーザビリティを保ちつつ,LLMの安全性を高めるために設計されたMoGUフレームワークを紹介する。
論文 参考訳(メタデータ) (2024-05-23T12:19:59Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language
Model Systems [29.828997665535336]
大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。
しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。
本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
論文 参考訳(メタデータ) (2024-01-11T09:29:56Z) - Enhancing Financial Sentiment Analysis via Retrieval Augmented Large
Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。
本稿では,金融感情分析のためのLLMフレームワークを提案する。
提案手法の精度は15%から48%向上し,F1得点を得た。
論文 参考訳(メタデータ) (2023-10-06T05:40:23Z) - Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。
一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。
我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文 参考訳(メタデータ) (2021-06-09T05:56:42Z) - Stress Testing of Meta-learning Approaches for Few-shot Learning [2.733700237741334]
メタラーニング(ML)は、マルチショット学習などのリソース制約下で有望な学習方法として登場しました。
タスク複雑性の増大に対して,数ショット学習のためのMLアプローチの性能を測定した。
論文 参考訳(メタデータ) (2021-01-21T13:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。