論文の概要: Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack
- arxiv url: http://arxiv.org/abs/2312.06924v2
- Date: Thu, 6 Jun 2024 22:58:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 20:36:48.834944
- Title: Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack
- Title(参考訳): NLPタスクの安全性アライメント:コンテキスト内攻撃としての弱アライズ
- Authors: Yu Fu, Yufei Li, Wen Xiao, Cong Liu, Yue Dong,
- Abstract要約: メインストリームNLPタスクは安全配慮に適切に適合しているか?
本研究は, 各種NLPタスクの安全性の相違について明らかにした。
セキュリティアライメントの弱いタスクを悪用するアタックは、従来より堅牢と考えられていたタスクの整合性を損なう可能性がある。
- 参考スコア(独自算出の注目度): 20.551730528019338
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent developments in balancing the usefulness and safety of Large Language Models (LLMs) have raised a critical question: Are mainstream NLP tasks adequately aligned with safety consideration? Our study, focusing on safety-sensitive documents obtained through adversarial attacks, reveals significant disparities in the safety alignment of various NLP tasks. For instance, LLMs can effectively summarize malicious long documents but often refuse to translate them. This discrepancy highlights a previously unidentified vulnerability: attacks exploiting tasks with weaker safety alignment, like summarization, can potentially compromise the integrity of tasks traditionally deemed more robust, such as translation and question-answering (QA). Moreover, the concurrent use of multiple NLP tasks with lesser safety alignment increases the risk of LLMs inadvertently processing harmful content. We demonstrate these vulnerabilities in various safety-aligned LLMs, particularly Llama2 models, Gemini and GPT-4, indicating an urgent need for strengthening safety alignments across a broad spectrum of NLP tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の有用性と安全性のバランスをとる最近の発展は、重要な疑問を提起している。
本研究は,敵攻撃によって得られた安全感性文書に着目し,各種NLPタスクの安全アライメントに有意な差異が認められた。
例えば、LLMは悪意のある長い文書を効果的に要約できるが、しばしば翻訳を拒む。
要約のような、より弱い安全アライメントを持つタスクを悪用する攻撃は、翻訳や質問応答(QA)など、従来より堅牢と考えられていたタスクの整合性を損なう可能性がある。
さらに、安全アライメントの少ない複数のNLPタスクの同時使用は、有害コンテンツを不注意に処理するLLMのリスクを増大させる。
我々は、これらの脆弱性を様々な安全対応LLM、特にLlama2モデル、GeminiとGPT-4で実証し、幅広いNLPタスクの安全アライメントを強化する緊急の必要性を示している。
関連論文リスト
- SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。
安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。
本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文 参考訳(メタデータ) (2024-10-07T19:53:35Z) - Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。
本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。
我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-18T08:04:24Z) - Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。
近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。
過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文 参考訳(メタデータ) (2024-08-21T10:01:34Z) - Cross-Task Defense: Instruction-Tuning LLMs for Content Safety [20.00136552026715]
大きな言語モデル(LLM)は、安全性とユーティリティのバランスをとる上での課題に直面します。
悪意のある短い質問に対する防御にもかかわらず、不正行為を教えるマニュアルなど、LLMが危険な長文を安全に扱える能力は、まだ不明である。
安全関連事例からなる防衛データセットを導入し,学習指導のための単一タスクと混合タスクの損失を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:14:32Z) - Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。