Fugu-MT 論文翻訳(概要): Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning

論文の概要: Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning

arxiv url: http://arxiv.org/abs/2410.04524v1
Date: Sun, 6 Oct 2024 15:34:04 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 06:56:10.197423
Title: Towards Secure Tuning: Mitigating Security Risks Arising from Benign Instruction Fine-Tuning
Title（参考訳）: セキュアチューニングに向けて - 良質なインストラクションの微調整から生じるセキュリティリスクの軽減
Authors: Yanrui Du, Sendong Zhao, Jiawei Cao, Ming Ma, Danyang Zhao, Fenglei Fan, Ting Liu, Bing Qin,
Abstract要約: 本研究は, Benign IFT によるセキュリティリスクを軽減することを目的としている。我々は,ML-LR(Modular Layer-wise Learning Rate)戦略と呼ばれる新しいIFT戦略を提案する。本研究は,セキュリティ評価において,ML-LR戦略の適用により,良性IFT後のLSMの有害性の増加が著しく軽減されることを示す。
参考スコア（独自算出の注目度）: 24.704176623413325
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Instruction Fine-Tuning (IFT) has become an essential method for adapting base Large Language Models (LLMs) into variants for professional and private use. However, researchers have raised concerns over a significant decrease in LLMs' security following IFT, even when the IFT process involves entirely benign instructions (termed Benign IFT). Our study represents a pioneering effort to mitigate the security risks arising from Benign IFT. Specifically, we conduct a Module Robustness Analysis, aiming to investigate how LLMs' internal modules contribute to their security. Based on our analysis, we propose a novel IFT strategy, called the Modular Layer-wise Learning Rate (ML-LR) strategy. In our analysis, we implement a simple security feature classifier that serves as a proxy to measure the robustness of modules (e.g. $Q$/$K$/$V$, etc.). Our findings reveal that the module robustness shows clear patterns, varying regularly with the module type and the layer depth. Leveraging these insights, we develop a proxy-guided search algorithm to identify a robust subset of modules, termed Mods$_{Robust}$. During IFT, the ML-LR strategy employs differentiated learning rates for Mods$_{Robust}$ and the rest modules. Our experimental results show that in security assessments, the application of our ML-LR strategy significantly mitigates the rise in harmfulness of LLMs following Benign IFT. Notably, our ML-LR strategy has little impact on the usability or expertise of LLMs following Benign IFT. Furthermore, we have conducted comprehensive analyses to verify the soundness and flexibility of our ML-LR strategy.
Abstract（参考訳）: インストラクションファインタニング(IFT)は、基礎となるLarge Language Models(LLM)をプロフェッショナルおよびプライベートな用途に応用するための重要な手法となっている。しかし、研究者は、IFTプロセスが完全に良性な命令(Benign IFT)を含む場合でも、IFT後のLLMのセキュリティが大幅に低下することを懸念している。我々の研究は、ベニグンIFTによるセキュリティリスクを軽減するための先駆的な取り組みである。具体的には,LLMの内部モジュールがセキュリティにどのように貢献するかを検討することを目的としたモジュールロバストネス解析を行う。本稿では,ML-LR(Modular Layer-wise Learning Rate)戦略と呼ばれる新しいIFT戦略を提案する。分析では,モジュールの堅牢性(例えば$Q$/$K$/$V$など)を測定するためのプロキシとして機能する,シンプルなセキュリティ機能分類器を実装した。モジュールの強靭性は,モジュールタイプや層深度によって定期的に変化し,明確なパターンを示すことがわかった。これらの知見を活用して、モジュールのロバストなサブセットを識別するプロキシ誘導探索アルゴリズムを Mods$_{Robust}$ と呼ぶ。 IFT中、ML-LR戦略はMods$_{Robust}$とその他のモジュールの差分学習率を採用している。本研究は,セキュリティ評価において,ML-LR戦略の適用により,良性IFT後のLSMの有害性の増加が著しく軽減されることを示す。特に,我々のML-LR戦略は Benign IFT に続く LLM のユーザビリティや専門性にはほとんど影響しない。さらに,ML-LR戦略の健全性と柔軟性を検証するため,包括的分析を行った。

関連論文リスト

Secure Tug-of-War (SecTOW): Iterative Defense-Attack Training with Reinforcement Learning for Multimodal Model Security [63.41350337821108]
マルチモーダル大規模言語モデル(MLLM)のセキュリティを高めるために,Secure Tug-of-War(SecTOW)を提案する。 SecTOWは2つのモジュールで構成される:ディフェンダーと補助攻撃者。どちらも強化学習(GRPO)を使用して反復的に訓練される。 SecTOWは、一般的な性能を維持しながら、セキュリティを大幅に改善することを示す。
論文参考訳（メタデータ） (2025-07-29T17:39:48Z)
Meta SecAlign: A Secure Foundation LLM Against Prompt Injection Attacks [21.422004323323343]
モデルレベルのディフェンスを内蔵した,初のオープンソースかつオープンソースのLLMであるMeta SecAlignを開発した。当社の最高のモデルであるMeta-SecAlign-70Bは、迅速なインジェクション攻撃に対する最先端の堅牢性を実現しています。
論文参考訳（メタデータ） (2025-07-03T15:47:13Z)
LoX: Low-Rank Extrapolation Robustifies LLM Safety Against Fine-tuning [61.594212398272184]
Low-Rank Extrapolation (LoX)は、良質で悪意のある微調整攻撃に対する堅牢性を改善する。 LoXは攻撃成功率を11%から54%に下げる。
論文参考訳（メタデータ） (2025-06-18T16:30:02Z)
Shape it Up! Restoring LLM Safety during Finetuning [66.46166656543761]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。 STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文参考訳（メタデータ） (2025-05-22T18:05:16Z)
Graphormer-Guided Task Planning: Beyond Static Rules with LLM Safety Perception [4.424170214926035]
本稿では,大規模言語モデルと構造化安全モデリングを組み合わせたリスク対応タスク計画フレームワークを提案する。提案手法は,空間的および文脈的危険因子を抽出し,動的セマンティック安全グラフを構築する。既定の安全性制約に依存する既存の手法とは異なり、我々のフレームワークはコンテキスト認識型リスク認識モジュールを導入している。
論文参考訳（メタデータ） (2025-03-10T02:43:54Z)
Amortized Safe Active Learning for Real-Time Decision-Making: Pretrained Neural Policies from Simulated Nonparametric Functions [23.406516455945653]
アクティブラーニング(英: Active Learning, AL)は、モデルトレーニングにおいて最も情報性の高いデータを選択することを目的とした、シーケンシャルな学習手法である。 ALの主な課題は、繰り返しモデルトレーニングとデータ選択に必要な取得最適化である。トレーニング済みのニューラルネットワークポリシを活用することで,モデルの繰り返しトレーニングや取得最適化の必要性を解消する。
論文参考訳（メタデータ） (2025-01-26T09:05:52Z)
Harnessing Task Overload for Scalable Jailbreak Attacks on Large Language Models [8.024771725860127]
大きな言語モデル(LLM)は、安全メカニズムをバイパスするジェイルブレイク攻撃に対して脆弱なままである。我々は, LLMの安全性ポリシーの活性化を前提として, 計算資源を占有する新しい拡張性のあるジェイルブレイク攻撃を導入する。
論文参考訳（メタデータ） (2024-10-05T15:10:01Z)
SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models [19.486685336959482]
大規模言語モデル(LLM)は能力と影響力を向上し続け、セキュリティを確保し、有害な出力を防ぐことが重要になっている。これらの問題に対処するための有望なアプローチは、レッドチームのための敵のプロンプトを自動的に生成するトレーニングモデルである。本稿では,モデル自体が生成したデータを活用することで,セキュリティを向上させるための最適化フレームワークであるmathbfStextelf-mathbfEtextvolving mathbfAtextdversarial mathbfStextafetyety mathbf(SEAS)について紹介する。
論文参考訳（メタデータ） (2024-08-05T16:55:06Z)
R-SFLLM: Jamming Resilient Framework for Split Federated Learning with Large Language Models [83.77114091471822]
Split Federated Learning (SFL)は、分散機械学習(ML)における計算効率のパラダイムである。 SFLの課題は、特に無線チャネル上に展開する場合、送信されたモデルパラメータが相手のジャミングに感受性を持つことである。これは、言語理解に不可欠である大規模言語モデル(LLM)における単語埋め込みパラメータに対して特に顕著である。無線ネットワーク上でのLLM(R-SFLLM)を用いたレジリエンスSFLのための物理層フレームワークを開発した。
論文参考訳（メタデータ） (2024-07-16T12:21:29Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models [51.85781332922943]
フェデレートラーニング(FL)は、複数のパーティが直接データ共有を必要とせずに、共同で大きな言語モデル(LLM)を微調整することを可能にする。我々は、シンプルでステルス的で効果的な安全攻撃手法を提案することにより、FedITにおける安全性アライメントの脆弱性を初めて明らかにした。
論文参考訳（メタデータ） (2024-06-15T13:24:22Z)
Defending Large Language Models Against Attacks With Residual Stream Activation Analysis [0.0]
大規模言語モデル(LLM)は敵の脅威に対して脆弱である。本稿では, LLM へのホワイトボックスアクセスを前提とした, 革新的な防御戦略を提案する。そこで本研究では,アタックプロンプト分類のための残差ストリームの固有なアクティベーションパターンを解析するための新しい手法を適用した。
論文参考訳（メタデータ） (2024-06-05T13:06:33Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文参考訳（メタデータ） (2024-05-30T03:44:54Z)
MoGU: A Framework for Enhancing Safety of Open-Sourced LLMs While Preserving Their Usability [25.750371424096436]
大規模言語モデル(LLM)は、様々なアプリケーションにますます多くデプロイされている。我々の研究は、既存の防衛戦略がLLMに主に拒絶指向の姿勢を採用することを示唆している。ユーザビリティを保ちつつ,LLMの安全性を高めるために設計されたMoGUフレームワークを紹介する。
論文参考訳（メタデータ） (2024-05-23T12:19:59Z)
Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。我々の調査は、この信念に対する重大な監視を露呈している。我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文参考訳（メタデータ） (2024-04-16T13:22:54Z)
Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文参考訳（メタデータ） (2024-04-05T20:31:45Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
Risk Taxonomy, Mitigation, and Assessment Benchmarks of Large Language Model Systems [29.828997665535336]
大規模言語モデル(LLM)は、多様な自然言語処理タスクを解く上で強力な能力を持つ。しかし、LLMシステムの安全性とセキュリティの問題は、その広範な応用にとって大きな障害となっている。本稿では,LLMシステムの各モジュールに関連する潜在的なリスクを体系的に分析する包括的分類法を提案する。
論文参考訳（メタデータ） (2024-01-11T09:29:56Z)
Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。本稿では,金融感情分析のためのLLMフレームワークを提案する。提案手法の精度は15%から48%向上し,F1得点を得た。
論文参考訳（メタデータ） (2023-10-06T05:40:23Z)
Plan, Eliminate, and Track -- Language Models are Good Teachers for Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。 Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。 PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文参考訳（メタデータ） (2023-05-03T20:11:22Z)
Task-Adaptive Saliency Guidance for Exemplar-free Class Incremental Learning [60.501201259732625]
EFCILにタスク適応型サリエンシを導入し、タスク適応型サリエンシ・スーパービジョン(TASS)と呼ばれる新しいフレームワークを提案する。提案手法は,CIFAR-100, Tiny-ImageNet, ImageNet-Subset EFCILベンチマークを用いて,タスク間のサリエンシマップの保存や,最先端の成果の達成に有効であることを示す。
論文参考訳（メタデータ） (2022-12-16T02:43:52Z)
Evaluating Model-free Reinforcement Learning toward Safety-critical Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文参考訳（メタデータ） (2022-12-12T06:30:17Z)
Practical Machine Learning Safety: A Survey and Primer [81.73857913779534]
自動運転車のような安全クリティカルなアプリケーションにおける機械学習アルゴリズムのオープンワールド展開は、さまざまなML脆弱性に対処する必要がある。一般化エラーを低減し、ドメイン適応を実現し、外乱例や敵攻撃を検出するための新しいモデルと訓練技術。我々の組織は、MLアルゴリズムの信頼性を異なる側面から向上するために、最先端のML技術を安全戦略にマッピングする。
論文参考訳（メタデータ） (2021-06-09T05:56:42Z)
Safe RAN control: A Symbolic Reinforcement Learning Approach [62.997667081978825]
本稿では,無線アクセスネットワーク(RAN)アプリケーションの安全管理のためのシンボル強化学習(SRL)アーキテクチャを提案する。我々は、ユーザが所定のセルネットワークトポロジに対して高レベルの論理的安全性仕様を指定できる純粋に自動化された手順を提供する。ユーザがシステムに意図仕様を設定するのを支援するために開発されたユーザインターフェース(UI)を導入し、提案するエージェントの動作の違いを検査する。
論文参考訳（メタデータ） (2021-06-03T16:45:40Z)
Stress Testing of Meta-learning Approaches for Few-shot Learning [2.733700237741334]
メタラーニング(ML)は、マルチショット学習などのリソース制約下で有望な学習方法として登場しました。タスク複雑性の増大に対して,数ショット学習のためのMLアプローチの性能を測定した。
論文参考訳（メタデータ） (2021-01-21T13:00:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。