Fugu-MT 論文翻訳(概要): How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries

論文の概要: How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries

arxiv url: http://arxiv.org/abs/2402.15302v3
Date: Mon, 4 Mar 2024 18:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-05 23:25:53.552091
Title: How (un)ethical are instruction-centric responses of LLMs? Unveiling the vulnerabilities of safety guardrails to harmful queries
Title（参考訳）: llmの(非倫理的な)命令中心の反応はどのようなものか? safe guardrailsの脆弱性を有害なクエリに公開
Authors: Somnath Banerjee, Sayan Layek, Rima Hazra, Animesh Mukherjee
Abstract要約: 大型言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。当社の作業は,特定の問題に対してゼロになっている – 命令中心の応答を生成するように要求することで,LLMをどの程度の頻度で誘導することが可能か,という点です。
参考スコア（独自算出の注目度）: 5.120177239919689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this study, we tackle a growing concern around the safety and ethical use of large language models (LLMs). Despite their potential, these models can be tricked into producing harmful or unethical content through various sophisticated methods, including 'jailbreaking' techniques and targeted manipulation. Our work zeroes in on a specific issue: to what extent LLMs can be led astray by asking them to generate responses that are instruction-centric such as a pseudocode, a program or a software snippet as opposed to vanilla text. To investigate this question, we introduce TechHazardQA, a dataset containing complex queries which should be answered in both text and instruction-centric formats (e.g., pseudocodes), aimed at identifying triggers for unethical responses. We query a series of LLMs -- Llama-2-13b, Llama-2-7b, Mistral-V2 and Mistral 8X7B -- and ask them to generate both text and instruction-centric responses. For evaluation we report the harmfulness score metric as well as judgements from GPT-4 and humans. Overall, we observe that asking LLMs to produce instruction-centric responses enhances the unethical response generation by ~2-38% across the models. As an additional objective, we investigate the impact of model editing using the ROME technique, which further increases the propensity for generating undesirable content. In particular, asking edited LLMs to generate instruction-centric responses further increases the unethical response generation by ~3-16% across the different models.
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)の安全性と倫理的利用に関する懸念が高まっている。その可能性にもかかわらず、これらのモデルは「ジェイルブレイク」技術や標的操作を含む様々な洗練された方法によって有害または非倫理的なコンテンツを生み出すように騙すことができる。我々の研究は、特定の問題についてゼロにしている: どの程度まで LLM は、バニラテキストではなく、擬似コード、プログラムまたはソフトウェアスニペットのような命令中心の応答を生成することで、アストレイを導くことができるか。そこで本研究では、テキストと命令中心の形式(擬似コードなど)の両方で答えるべき複雑なクエリを含むデータセットであるTechHazardQAを紹介し、非倫理的応答のトリガを特定することを目的とした。 LLM - Llama-2-13b, Llama-2-7b, Mistral-V2, Mistral 8X7B - をクエリして,テキストと命令中心の応答を生成する。評価のために,GPT-4およびヒトの有害度測定値と判定値について報告する。全体として、LLMに命令中心の応答を要求すれば、モデル全体で約2～38%の非倫理的応答が生成される。さらに, ROME技術を用いたモデル編集の影響について検討し, 好ましくないコンテンツを生成するための妥当性をさらに高めている。特に、編集されたLSMに命令中心の応答を生成するよう要求すると、異なるモデル間で、非倫理的な応答生成が3-16%増加する。

関連論文リスト

Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。 LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
Look Before You Leap: Enhancing Attention and Vigilance Regarding Harmful Content with GuidelineLLM [53.79753074854936]
大規模言語モデル(LLM)は、出現するジェイルブレイク攻撃に対してますます脆弱である。この脆弱性は現実世界のアプリケーションに重大なリスクをもたらす。本稿では,ガイドラインLLMという新しい防御パラダイムを提案する。
論文参考訳（メタデータ） (2024-12-10T12:42:33Z)
Multi-round jailbreak attack on large language models [2.540971544359496]
私たちは"ジェイルブレイク"攻撃をよりよく理解するために、マルチラウンドのジェイルブレイクアプローチを導入します。この方法は危険なプロンプトを書き換え、有害でない一連のサブクエストに分解する。実験の結果,ラマ2-7Bは94%の成功率を示した。
論文参考訳（メタデータ） (2024-10-15T12:08:14Z)
Utilize the Flow before Stepping into the Same River Twice: Certainty Represented Knowledge Flow for Refusal-Aware Instruction Tuning [68.57166425493283]
Refusal-Aware Instruction Tuning (RAIT) により、Large Language Models (LLM) は未知の質問に答えることを拒否できる。 RAITは、初期LCMの応答の正しさに基づいてトレーニングサンプルを変更する。この粗末なアプローチは、LLMが正しく答えられる可能性のある質問に答えることを過剰に拒否する可能性がある。
論文参考訳（メタデータ） (2024-10-09T14:12:51Z)
LLM Self-Correction with DeCRIM: Decompose, Critique, and Refine for Enhanced Following of Instructions with Multiple Constraints [86.59857711385833]
実世界のマルチ制約命令に従うLLMの能力を評価するために設計された最初のベンチマークであるRealInstructを紹介する。オープンソースモデルとプロプライエタリモデルのパフォーマンスギャップを解決するため,Decompose, Critique and Refine(DeCRIM)自己補正パイプラインを提案する。この結果から,DeCRIMはフィードバックが弱い場合でも,RealInstructでは7.3%,IFEvalでは8.0%,Mistralでは7.3%向上した。
論文参考訳（メタデータ） (2024-10-09T01:25:10Z)
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T13:12:13Z)
Detecting AI Flaws: Target-Driven Attacks on Internal Faults in Language Models [27.397408870544453]
大規模言語モデル(LLM)は、人工知能の急速に発展する分野において焦点となっている。重要な懸念は、これらのモデルの事前学習コーパス内に有毒な物質が存在することであり、不適切な出力が発生する可能性がある。本稿では,プロンプトを最適化する代わりに,ターゲット応答を直接抽出することに焦点を当てた,ターゲット駆動型攻撃パラダイムを提案する。
論文参考訳（メタデータ） (2024-08-27T08:12:08Z)
Make Them Spill the Beans! Coercive Knowledge Extraction from (Production) LLMs [31.80386572346993]
LLMが有害な要求を拒絶しても、有害な応答が出力ロジットの奥深くに隠されることがよくあります。このアプローチは、脱獄方法と異なり、有効性は62%に対して92%、高速性は10～20倍である。本研究は, コーディングタスクに特化して設計されたモデルから, 有毒な知識を抽出できることを示唆する。
論文参考訳（メタデータ） (2023-12-08T01:41:36Z)
Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。 RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文参考訳（メタデータ） (2023-11-07T18:43:34Z)
Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。近年の文献では、LLMは断続的に非実効応答を生成する。本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文参考訳（メタデータ） (2023-10-27T06:22:14Z)
Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文参考訳（メタデータ） (2023-08-25T14:02:12Z)
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文参考訳（メタデータ） (2023-02-24T18:48:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。