論文の概要: Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an
In-Context Attack
- arxiv url: http://arxiv.org/abs/2312.06924v1
- Date: Tue, 12 Dec 2023 01:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 17:50:45.003518
- Title: Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an
In-Context Attack
- Title(参考訳): NLPタスクの安全性アライメント:コンテキスト内攻撃としての弱アライズ
- Authors: Yu Fu, Yufei Li, Wen Xiao, Cong Liu, Yue Dong
- Abstract要約: メインストリームNLPタスクは安全配慮に適切に適合しているか?
本研究は, 各種NLPタスクの安全性の相違について明らかにした。
セキュリティアライメントの弱いタスクを悪用するアタックは、従来より堅牢と考えられていたタスクの統合性を損なう可能性がある。
- 参考スコア(独自算出の注目度): 22.048840947016757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in balancing the usefulness and safety of Large Language
Models (LLMs) have raised a critical question: Are mainstream NLP tasks
adequately aligned with safety consideration? Our study, focusing on
safety-sensitive documents obtained through adversarial attacks, reveals
significant disparities in the safety alignment of various NLP tasks. For
instance, LLMs can effectively summarize malicious long documents but often
refuse to translate them. This discrepancy highlights a previously unidentified
vulnerability: attacks exploiting tasks with weaker safety alignment, like
summarization, can potentially compromise the integraty of tasks traditionally
deemed more robust, such as translation and question-answering (QA). Moreover,
the concurrent use of multiple NLP tasks with lesser safety alignment increases
the risk of LLMs inadvertently processing harmful content. We demonstrate these
vulnerabilities in various safety-aligned LLMs, particularly Llama2 models and
GPT-4, indicating an urgent need for strengthening safety alignments across a
broad spectrum of NLP tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の有用性と安全性のバランスをとる最近の発展は、重要な疑問を提起している。
本研究は,敵攻撃によって得られた安全感性文書に着目し,各種NLPタスクの安全アライメントに有意差が認められた。
例えば、LLMは悪意のある長い文書を効果的に要約できるが、しばしば翻訳を拒む。
要約のような、より弱い安全アライメントを持つタスクを悪用する攻撃は、翻訳や質問回答(QA)など、従来より堅牢と考えられていたタスクの統合性を損なう可能性がある。
さらに,安全アライメントの少ない複数のnlpタスクの同時使用により,有害なコンテンツが不注意に処理されるリスクが高まる。
これらの脆弱性は,特にLlama2モデルとGPT-4において,幅広いNLPタスクにまたがる安全アライメント強化の必要性が示唆された。
関連論文リスト
- ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices [4.927763944523323]
大規模言語モデル(LLM)は、自然言語処理(NLP)のランドスケープを大きく変えた。
本研究は,5つのテーマの観点から,LLMに関するセキュリティとプライバシの懸念を徹底的に調査する。
本稿は, LLMの安全性とリスク管理を強化するために, 今後の研究に期待できる道筋を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:10:58Z) - Exploring Safety Generalization Challenges of Large Language Models via Code [126.80573601180411]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの共通の安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large
Language Models with Reverse Prompt Contrastive Decoding [95.49128988683191]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models [112.46733790998024]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - SafetyBench: Evaluating the Safety of Large Language Models with
Multiple Choice Questions [56.70459851230943]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - A Survey of Safety and Trustworthiness of Large Language Models through
the Lens of Verification and Validation [21.242078120036176]
大規模言語モデル(LLM)は、エンドユーザーと人間レベルの会話を行う能力のために、AIの新たな熱波を爆発させた。
この調査は、産業応用における安全性と信頼性に関するものである。
論文 参考訳(メタデータ) (2023-05-19T02:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。