論文の概要: Decoupled Alignment for Robust Plug-and-Play Adaptation
- arxiv url: http://arxiv.org/abs/2406.01514v2
- Date: Tue, 4 Jun 2024 03:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-05 22:00:59.799852
- Title: Decoupled Alignment for Robust Plug-and-Play Adaptation
- Title(参考訳): ロバストプラグアンドプレイ適応のためのデカップリングアライメント
- Authors: Haozheng Luo, Jiahao Yu, Wenxin Zhang, Jialong Li, Jerry Yao-Chieh Hu, Xingyu Xing, Han Liu,
- Abstract要約: 教師付き微調整(SFT)や人間フィードバックからの強化学習(RLHF)を必要とせずに,大規模言語モデル(LLM)を整列させる低リソース安全性向上手法を提案する。
本研究の主な目的は、知識蒸留を利用して、既存のよく整合したLLMからアライメント情報を抽出し、プラグイン・アンド・プレイ方式で非整合なLLMに統合することである。
有害な質問データセットでは, 平均防御成功率が約14.41%向上し, 51.39%に達した。
- 参考スコア(独自算出の注目度): 6.479934259149167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a low-resource safety enhancement method for aligning large language models (LLMs) without the need for supervised fine-tuning (SFT) or reinforcement learning from human feedback (RLHF). Our main idea is to exploit knowledge distillation to extract the alignment information from existing well-aligned LLMs and integrate it into unaligned LLMs in a plug-and-play fashion. Methodology, we employ delta debugging to identify the critical components of knowledge necessary for effective distillation. On the harmful question dataset, our method significantly enhances the average defense success rate by approximately 14.41%, reaching as high as 51.39%, in 17 unaligned pre-trained LLMs, without compromising performance.
- Abstract(参考訳): 本研究では,大規模言語モデル (LLM) を,教師付き微調整 (SFT) や人間フィードバック (RLHF) からの強化学習を必要とせずに整列させる低リソース安全性向上手法を提案する。
本研究の主な目的は、知識蒸留を利用して、既存のよく整合したLLMからアライメント情報を抽出し、プラグイン・アンド・プレイ方式で非整合なLLMに統合することである。
提案手法ではデルタデバッギングを用いて,有効蒸留に必要な知識の重要成分を同定する。
有害な質問データセットでは, 平均防御成功率が約14.41%向上し, 51.39%に達した。
関連論文リスト
- Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation [4.340880264464675]
大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。
LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。
本研究は, テスト段階におけるコスト削減戦略について検討し, 資源利用の制約と徹底的な評価の必要性をバランスづけるものである。
論文 参考訳(メタデータ) (2024-07-14T07:21:54Z) - PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文 参考訳(メタデータ) (2024-06-20T18:37:36Z) - Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment [11.623119255726698]
OpenAIのGPTシリーズ、AnthropicのClaude、MetaのLLaMaのような大きな言語モデル(LLM)は、テキスト生成において顕著な能力を示している。
有害なプロンプトに対する感受性は、重大なセキュリティ上の課題を呈している。
本稿では,SFT(Supervised Fine-Tuning)やRLHF(Reinforcement Learning from Human Feedback)などのアライメント手法について検討する。
論文 参考訳(メタデータ) (2024-06-17T07:46:45Z) - TernaryLLM: Ternarized Large Language Model [29.29122031050894]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて顕著なパフォーマンスを達成した。
本稿では、Dual Learnable Ternarization (DLT)を導入し、スケールとシフトの両方を学習可能にする。
また、極低ビット量子化で失われた情報を復元するために、OFF(Outlier-Friendly Feature Knowledge Distillation)を提案する。
論文 参考訳(メタデータ) (2024-06-11T11:40:12Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
従来のアライメント戦略は人間の介入に大きく依存しており、例えばSupervised Fine-Tuning(SFT)やReinforcement Learning from Human Feedback(RLHF)などである。
本稿では、AlignCoTと呼ばれる思考の連鎖(CoT)アプローチを利用した新しい自己アライメント手法を提案する。
本稿では、AlignCoTプロセスの各コンポーネントを強化するために専門家の混合を適用し、アライメント効率を著しく向上させるMoTEアーキテクチャについて紹介する。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - Improving Few-Shot Generalization by Exploring and Exploiting Auxiliary
Data [100.33096338195723]
補助データを用いたFew-shot Learning(FLAD)に焦点を当てる。
FLADは、一般化を改善するために、数ショットの学習中に補助データへのアクセスを前提としている。
提案するアルゴリズムは EXP3-FLAD と UCB1-FLAD の2つである。
論文 参考訳(メタデータ) (2023-02-01T18:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。