論文の概要: Lightweight Safety Classification Using Pruned Language Models
- arxiv url: http://arxiv.org/abs/2412.13435v1
- Date: Wed, 18 Dec 2024 02:13:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 16:49:57.159210
- Title: Lightweight Safety Classification Using Pruned Language Models
- Title(参考訳): Pruned Language Model を用いた軽量安全分類
- Authors: Mason Sawtell, Tula Masterman, Sandi Besen, Jim Brown,
- Abstract要約: 本稿では,大規模言語モデルに対するコンテンツ安全性と迅速なインジェクション分類のための新しい手法を提案する。
提案手法は,GPT-4oを超える優れた性能と,タスク毎に微調整された特別目的モデルを実現する。
以上の結果から,コンテンツ安全性の分類やインジェクションの早期検出,出力トークンの同時生成に,単一汎用LLMが使用可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: In this paper, we introduce a novel technique for content safety and prompt injection classification for Large Language Models. Our technique, Layer Enhanced Classification (LEC), trains a Penalized Logistic Regression (PLR) classifier on the hidden state of an LLM's optimal intermediate transformer layer. By combining the computational efficiency of a streamlined PLR classifier with the sophisticated language understanding of an LLM, our approach delivers superior performance surpassing GPT-4o and special-purpose models fine-tuned for each task. We find that small general-purpose models (Qwen 2.5 sizes 0.5B, 1.5B, and 3B) and other transformer-based architectures like DeBERTa v3 are robust feature extractors allowing simple classifiers to be effectively trained on fewer than 100 high-quality examples. Importantly, the intermediate transformer layers of these models typically outperform the final layer across both classification tasks. Our results indicate that a single general-purpose LLM can be used to classify content safety, detect prompt injections, and simultaneously generate output tokens. Alternatively, these relatively small LLMs can be pruned to the optimal intermediate layer and used exclusively as robust feature extractors. Since our results are consistent on different transformer architectures, we infer that robust feature extraction is an inherent capability of most, if not all, LLMs.
- Abstract(参考訳): 本稿では,大規模言語モデルにおけるコンテンツ安全性と迅速なインジェクション分類のための新しい手法を提案する。
我々の手法である層拡張分類(LEC)は、LLMの最適中間変圧器層の隠蔽状態において、PLR分類器を訓練する。
LLMの精巧な言語理解と合わさったPLR分類器の計算効率を組み合わせることで,GPT-4oを超える優れた性能と,タスク毎に微調整された特別目的モデルを実現する。
小型汎用モデル(Qwen 2.5 sizes 0.5B, 1.5B, 3B)やDeBERTa v3のようなトランスフォーマーベースアーキテクチャは,100以上の高品質な例で単純な分類器を効果的に訓練できる堅牢な特徴抽出器であることがわかった。
重要なことに、これらのモデルの中間変換層は、典型的には両方の分類タスクで最終層よりも優れている。
以上の結果から,コンテンツ安全性の分類やインジェクションの早期検出,出力トークンの同時生成に,単一汎用LLMが使用可能であることが示唆された。
あるいは、これらの比較的小さなLSMを最適な中間層に切断し、頑健な特徴抽出器としてのみ使用できる。
我々の結果は、異なるトランスフォーマーアーキテクチャに一貫性があるので、ロバストな特徴抽出がLLMの本質的な能力であることを推測する。
関連論文リスト
- DFPE: A Diverse Fingerprint Ensemble for Enhancing LLM Performance [11.753349115726952]
そこで我々は,新しいアンサンブル法であるDiverse Fingerprint Ensemble (DFPE)を提案する。
提案手法は,(1)応答型"フィンガープリント"パターンに基づくクラスタリングモデル,(2)量子化に基づくフィルタリング機構の適用,(3)残余モデルに適応重みを割り当てることである。
MMLU(Massive Multitask Language Understanding)ベンチマークの実験では、DFPEは、全体的な精度が3%、規律レベルの精度が5%向上し、最高のシングルモデルを上回った。
論文 参考訳(メタデータ) (2025-01-29T08:44:45Z) - How to Make LLMs Strong Node Classifiers? [70.14063765424012]
言語モデル(LM)は、グラフニューラルネットワーク(GNN)やグラフトランスフォーマー(GT)など、ドメイン固有のモデルの優位性に挑戦している。
本稿では,ノード分類タスクにおける最先端(SOTA)GNNに匹敵する性能を実現するために,既製のLMを有効活用する手法を提案する。
論文 参考訳(メタデータ) (2024-10-03T08:27:54Z) - TransformerRanker: A Tool for Efficiently Finding the Best-Suited Language Models for Downstream Classification Tasks [2.497666465251894]
TransformerRankerは、事前訓練された言語モデルの分類タスクをランク付けする軽量ライブラリである。
我々のライブラリは、転送可能性推定のための現在のアプローチを実装している。
TransformerRankerは,Pipインストール可能なオープンソースライブラリとして利用可能です。
論文 参考訳(メタデータ) (2024-09-09T18:47:00Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - One Token Can Help! Learning Scalable and Pluggable Virtual Tokens for Retrieval-Augmented Large Language Models [67.49462724595445]
Retrieval-augmented Generation (RAG)は、大規模言語モデル(LLM)を改善するための有望な方法である。
本稿では,RAGのためのスケーラブルでプラガブルな仮想トークンを学習する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:44:54Z) - LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Sorted LLaMA: Unlocking the Potential of Intermediate Layers of Large
Language Models for Dynamic Inference [32.62084449979531]
SortedNet を Sorted Fine-Tuning (SoFT) に置き換えることで生成 NLP タスクに拡張する。
我々のアプローチはモデル効率を向上し、推論中に様々なシナリオに対する複数のモデルの必要性を排除します。
以上の結果から,SFT+ICT(Early-Exit)と標準ファインチューニング(SFT+ICT)と比較して,サブモデルの優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-16T11:58:34Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。