論文の概要: Efficient Jailbreaking of Large Models by Freeze Training: Lower Layers Exhibit Greater Sensitivity to Harmful Content
- arxiv url: http://arxiv.org/abs/2502.20952v1
- Date: Fri, 28 Feb 2025 11:07:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:23.299572
- Title: Efficient Jailbreaking of Large Models by Freeze Training: Lower Layers Exhibit Greater Sensitivity to Harmful Content
- Title(参考訳): 凍結訓練による大規模モデルの効率的な脱獄:有害な内容に対する高い感度の低い層
- Authors: Hongyuan Shen, Min Zheng, Jincheng Wang, Yang Zhao,
- Abstract要約: 本研究では,大規模言語モデルのパラメータのサンプリングと正規化を行い,パラメータ分布の視覚表現とヒートマップを生成する。
このことから,我々は,下層層のみにSupervised Fine-Tuningを選択的に行うフリーズトレーニング戦略を採用した。
実験により、この手法は、高いジェイルブレイク成功率と高いハーネススコアを維持しながら、トレーニング時間とGPUメモリ消費を著しく低減することを示した。
- 参考スコア(独自算出の注目度): 11.626522946410596
- License:
- Abstract: With the widespread application of Large Language Models across various domains, their security issues have increasingly garnered significant attention from both academic and industrial communities. This study conducts sampling and normalization of the parameters of the LLM to generate visual representations and heatmaps of parameter distributions, revealing notable discrepancies in parameter distributions among certain layers within the hidden layers. Further analysis involves calculating statistical metrics for each layer, followed by the computation of a Comprehensive Sensitivity Score based on these metrics, which identifies the lower layers as being particularly sensitive to the generation of harmful content. Based on this finding, we employ a Freeze training strategy, selectively performing Supervised Fine-Tuning only on the lower layers. Experimental results demonstrate that this method significantly reduces training duration and GPU memory consumption while maintaining a high jailbreak success rate and a high harm score, outperforming the results achieved by applying the LoRA method for SFT across all layers. Additionally, the method has been successfully extended to other open-source large models, validating its generality and effectiveness across different model architectures. Furthermore, we compare our method with ohter jailbreak method, demonstrating the superior performance of our approach. By innovatively proposing a method to statistically analyze and compare large model parameters layer by layer, this study provides new insights into the interpretability of large models. These discoveries emphasize the necessity of continuous research and the implementation of adaptive security measures in the rapidly evolving field of LLMs to prevent potential jailbreak attack risks, thereby promoting the development of more robust and secure LLMs.
- Abstract(参考訳): 様々な領域で大規模言語モデルが広く適用され、そのセキュリティ問題は、学術的、工業的両方のコミュニティから注目が集まっている。
本研究では,LLMのパラメータのサンプリングと正規化を行い,パラメータ分布の視覚的表現とヒートマップを生成し,隠蔽層内の特定の層間のパラメータ分布の顕著な相違を明らかにする。
さらに分析では、各レイヤの統計メトリクスを計算し、次いでこれらのメトリクスに基づいて包括感度スコアの計算を行い、下位レイヤが有害なコンテンツの生成に特に敏感であることを識別する。
このことから,我々は,下層層のみにSupervised Fine-Tuningを選択的に行うフリーズトレーニング戦略を採用した。
実験により、この手法は、高いジェイルブレイク成功率と高いハーネススコアを維持しながら、トレーニング時間とGPUメモリ消費を著しく低減し、全層にわたるSFTにLoRA法を適用した結果よりも優れた結果が得られた。
さらに、この手法は他のオープンソースの大規模モデルにも拡張され、様々なモデルアーキテクチャでその一般化と有効性を検証した。
さらに,本手法をオータージェイルブレイク法と比較し,本手法の優れた性能を示す。
大規模モデルパラメータ層を層ごとに統計的に解析・比較する手法を革新的に提案することにより,大規模モデルの解釈可能性に関する新たな知見を提供する。
これらの発見は、Jailbreak攻撃のリスクを防止し、より堅牢で安全なLLMの開発を促進するために、継続的な研究と、急速に発展するLLMの分野における適応型セキュリティ対策の実施の必要性を強調している。
関連論文リスト
- Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Clear Minds Think Alike: What Makes LLM Fine-tuning Robust? A Study of Token Perplexity [61.48338027901318]
LLM生成データによる微調整により,目標タスク性能が向上し,ドメイン外劣化の低減が図られる。
LLM生成トレーニングデータによって与えられる優れたOODロバスト性について、これが最初の力学的説明である。
論文 参考訳(メタデータ) (2025-01-24T08:18:56Z) - CogSteer: Cognition-Inspired Selective Layer Intervention for Efficiently Steering Large Language Models [37.476241509187304]
大規模言語モデル(LLM)は、広範囲なデータに対する事前学習を通じて、優れたパフォーマンスを達成する。
基本的なメカニズムにおける解釈可能性の欠如は、特定のアプリケーションに対してLLMを効果的に操る能力を制限する。
本研究では,眼球運動計測を用いた認知的視点からLLMのメカニズムを考察する。
論文 参考訳(メタデータ) (2024-10-23T09:40:15Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards General Neural Parameter Prior Models [56.00251589760559]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
実験により、LM-GCは既存の最先端のロスレス圧縮手法を超越していることが示された。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - On Effects of Steering Latent Representation for Large Language Model Unlearning [4.058064008234271]
Representation Misdirection for Unlearning (RMU)は、大規模言語モデル(LLM)の学習に有効な方法である。
中間層での表現を忘れることによってトークンの信頼性が低下し,LSMが間違った応答やナンセンスな応答を発生させることを示す。
適応的RMU(Adaptive RMU)は,ほとんどの層で非学習を効果的に行う,シンプルで効果的な代替手法である。
論文 参考訳(メタデータ) (2024-08-12T15:24:50Z) - The Unreasonable Ineffectiveness of the Deeper Layers [5.984361440126354]
本研究では,オープンウェイトプレトレーニング LLM の一般家庭を対象とした簡易な階層分割戦略について検討する。
レイヤーの大部分が取り除かれるまで、パフォーマンスの最小限の劣化が見られます。
科学的見地からすると、これらのLCMの堅牢性からレイヤの削除は、現在の事前学習手法がネットワークの深い層におけるパラメータを適切に活用していない、あるいは浅い層が知識を保存する上で重要な役割を担っていることを示唆している。
論文 参考訳(メタデータ) (2024-03-26T17:20:04Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Outlier Weighed Layerwise Sparsity (OWL): A Missing Secret Sauce for Pruning LLMs to High Sparsity [88.62935593360162]
大規模言語モデル(LLM)は、様々な領域にわたる顕著なパフォーマンスで有名である。
本研究では,不均一層幅比の調整を施した新しいLCMプルーニング手法について紹介する。
OWL は、最先端の Wanda と SparseGPT を 61.22 で上回り、6.80 パープレキシティを 70% で上回っている。
論文 参考訳(メタデータ) (2023-10-08T14:22:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。