論文の概要: DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2407.10106v4
- Date: Sun, 8 Sep 2024 07:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 01:41:10.480613
- Title: DistillSeq: A Framework for Safety Alignment Testing in Large Language Models using Knowledge Distillation
- Title(参考訳): DistillSeq: 知識蒸留を用いた大規模言語モデルの安全アライメントテストフレームワーク
- Authors: Mingke Yang, Yuqi Chen, Yi Liu, Ling Shi,
- Abstract要約: 大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。
LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。
本研究は, テスト段階におけるコスト削減戦略について検討し, 資源利用の制約と徹底的な評価の必要性をバランスづけるものである。
- 参考スコア(独自算出の注目度): 4.340880264464675
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large Language Models (LLMs) have showcased their remarkable capabilities in diverse domains, encompassing natural language understanding, translation, and even code generation. The potential for LLMs to generate harmful content is a significant concern. This risk necessitates rigorous testing and comprehensive evaluation of LLMs to ensure safe and responsible use. However, extensive testing of LLMs requires substantial computational resources, making it an expensive endeavor. Therefore, exploring cost-saving strategies during the testing phase is crucial to balance the need for thorough evaluation with the constraints of resource availability. To address this, our approach begins by transferring the moderation knowledge from an LLM to a small model. Subsequently, we deploy two distinct strategies for generating malicious queries: one based on a syntax tree approach, and the other leveraging an LLM-based method. Finally, our approach incorporates a sequential filter-test process designed to identify test cases that are prone to eliciting toxic responses. Our research evaluated the efficacy of DistillSeq across four LLMs: GPT-3.5, GPT-4.0, Vicuna-13B, and Llama-13B. In the absence of DistillSeq, the observed attack success rates on these LLMs stood at 31.5% for GPT-3.5, 21.4% for GPT-4.0, 28.3% for Vicuna-13B, and 30.9% for Llama-13B. However, upon the application of DistillSeq, these success rates notably increased to 58.5%, 50.7%, 52.5%, and 54.4%, respectively. This translated to an average escalation in attack success rate by a factor of 93.0% when compared to scenarios without the use of DistillSeq. Such findings highlight the significant enhancement DistillSeq offers in terms of reducing the time and resource investment required for effectively testing LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は、自然言語の理解、翻訳、さらにはコード生成を含む様々な領域において、その顕著な能力を誇示している。
LLMが有害なコンテンツを生成できる可能性は大きな懸念事項である。
このリスクは、安全で責任ある使用を確保するために、厳密なテストとLLMの包括的な評価を必要とする。
しかし、LLMの広範なテストには相当な計算資源が必要であり、コストがかかる。
したがって、テストフェーズにおけるコスト削減戦略の探求は、リソース可用性の制約と徹底的な評価の必要性のバランスをとるために不可欠である。
そこで本手法は,LLMから小さなモデルにモデレーション知識を移すことから始める。
その後、私たちは、構文木アプローチに基づく悪質なクエリを生成するための2つの戦略をデプロイし、もう1つはLLMベースのメソッドを活用する。
最後に, 本手法では, 有害反応を誘発しやすい検査事例を特定するために, シーケンシャルなフィルタテストプロセスを導入している。
本研究は, GPT-3.5, GPT-4.0, Vicuna-13B, Llama-13Bの4種類のLDMに対するDistillSeqの有効性を検討した。
DistillSeqがなければ、これらのLSMの攻撃成功率は、GPT-3.5が31.5%、GPT-4.0が21.4%、Vicuna-13Bが28.3%、Llama-13Bが30.9%であった。
しかし、DistillSeqの適用により、これらの成功率は58.5%、50.7%、52.5%、54.4%に顕著に増加した。
これは、DistillSeqを使用せずにシナリオと比較した場合、攻撃成功率の平均エスカレーションを93.0%削減した。
このような知見は、LLMを効果的にテストするために必要な時間とリソース投資を減らすという点で、DistillSeqが提供する重要な強化を浮き彫りにしている。
関連論文リスト
- LLM Robustness Against Misinformation in Biomedical Question Answering [50.98256373698759]
探索拡張生成(RAG)アプローチは,質問応答のための大規模言語モデル(LLM)の折り畳みを低減するために用いられる。
バイオメディカル質問に対する誤報に対する4つのLDMの有効性とロバスト性を評価した。
論文 参考訳(メタデータ) (2024-10-27T16:23:26Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Measuring and Enhancing Trustworthiness of LLMs in RAG through Grounded Attributions and Learning to Refuse [27.26121507279163]
本稿では,RAGフレームワークにおけるLCMの信頼性を評価する総合指標であるTrust-Scoreを紹介する。
この結果から,LLMをRAGタスクに効果的に適応させるには,文脈内学習などの様々なプロンプト手法が不十分であることが示唆された。
信頼スコア性能向上のためのLCMの整合化手法であるTrust-Alignを提案する。
論文 参考訳(メタデータ) (2024-09-17T14:47:33Z) - Beyond ChatGPT: Enhancing Software Quality Assurance Tasks with Diverse LLMs and Validation Techniques [14.230480872339463]
本稿では,複数の大規模言語モデル(LLM)が2つのSQAタスク(障害局所化と脆弱性検出)にまたがる機能について検討する。
LLMの結果を組み合わせる投票機構を実装することで,両タスクにおいてGPT-3.5よりも10%以上の改善を実現した。
このアプローチにより、障害のローカライゼーションが16%、脆弱性検出が12%、GPT-3.5が4%向上した。
論文 参考訳(メタデータ) (2024-09-02T07:26:19Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Decoupled Alignment for Robust Plug-and-Play Adaptation [19.10463167105986]
教師付き微調整(SFT)や人間フィードバックからの強化学習(RLHF)を必要とせずに,大規模言語モデル(LLM)を整列させる低リソース安全性向上手法を提案する。
本研究の主な目的は、知識蒸留を利用して、既存のよく整合したLLMからアライメント情報を抽出し、プラグイン・アンド・プレイ方式で非整合なLLMに統合することである。
有害な質問データセットでは, 平均防御成功率が約14.41%向上し, 51.39%に達した。
論文 参考訳(メタデータ) (2024-06-03T16:46:18Z) - How Easy is It to Fool Your Multimodal LLMs? An Empirical Analysis on Deceptive Prompts [54.07541591018305]
提案するMAD-Benchは,既存のオブジェクト,オブジェクト数,空間関係などの5つのカテゴリに分割した1000の試験サンプルを含むベンチマークである。
我々は,GPT-4v,Reka,Gemini-Proから,LLaVA-NeXTやMiniCPM-Llama3といったオープンソースモデルに至るまで,一般的なMLLMを包括的に分析する。
GPT-4oはMAD-Bench上で82.82%の精度を達成するが、実験中の他のモデルの精度は9%から50%である。
論文 参考訳(メタデータ) (2024-02-20T18:31:27Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。