Fugu-MT 論文翻訳(概要): Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack

論文の概要: Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack

arxiv url: http://arxiv.org/abs/2312.06924v1
Date: Tue, 12 Dec 2023 01:39:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-13 17:50:45.003518
Title: Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack
Title（参考訳）: NLPタスクの安全性アライメント:コンテキスト内攻撃としての弱アライズ
Authors: Yu Fu, Yufei Li, Wen Xiao, Cong Liu, Yue Dong
Abstract要約: メインストリームNLPタスクは安全配慮に適切に適合しているか? 本研究は, 各種NLPタスクの安全性の相違について明らかにした。セキュリティアライメントの弱いタスクを悪用するアタックは、従来より堅牢と考えられていたタスクの統合性を損なう可能性がある。
参考スコア（独自算出の注目度）: 22.048840947016757
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in balancing the usefulness and safety of Large Language Models (LLMs) have raised a critical question: Are mainstream NLP tasks adequately aligned with safety consideration? Our study, focusing on safety-sensitive documents obtained through adversarial attacks, reveals significant disparities in the safety alignment of various NLP tasks. For instance, LLMs can effectively summarize malicious long documents but often refuse to translate them. This discrepancy highlights a previously unidentified vulnerability: attacks exploiting tasks with weaker safety alignment, like summarization, can potentially compromise the integraty of tasks traditionally deemed more robust, such as translation and question-answering (QA). Moreover, the concurrent use of multiple NLP tasks with lesser safety alignment increases the risk of LLMs inadvertently processing harmful content. We demonstrate these vulnerabilities in various safety-aligned LLMs, particularly Llama2 models and GPT-4, indicating an urgent need for strengthening safety alignments across a broad spectrum of NLP tasks.
Abstract（参考訳）: 大規模言語モデル(LLM)の有用性と安全性のバランスをとる最近の発展は、重要な疑問を提起している。本研究は,敵攻撃によって得られた安全感性文書に着目し,各種NLPタスクの安全アライメントに有意差が認められた。例えば、LLMは悪意のある長い文書を効果的に要約できるが、しばしば翻訳を拒む。要約のような、より弱い安全アライメントを持つタスクを悪用する攻撃は、翻訳や質問回答(QA)など、従来より堅牢と考えられていたタスクの統合性を損なう可能性がある。さらに,安全アライメントの少ない複数のnlpタスクの同時使用により,有害なコンテンツが不注意に処理されるリスクが高まる。これらの脆弱性は,特にLlama2モデルとGPT-4において,幅広いNLPタスクにまたがる安全アライメント強化の必要性が示唆された。

関連論文リスト

GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners [60.49708196646694]
大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
論文参考訳（メタデータ） (2025-09-29T08:07:45Z)
DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models [37.104276926258095]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの統合により、ユニークな安全性上の課題を提起する。 textbfDREAM(textittextbfDisentangling textbfRisks to textbfEnhance Safety textbfAlignment in textbfMLLMs)を導入する。
論文参考訳（メタデータ） (2025-04-25T03:54:24Z)
Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文参考訳（メタデータ） (2025-04-14T09:03:51Z)
SAFER: Advancing Safety Alignment via Efficient Ex-Ante Reasoning [51.78514648677898]
我々は,eFficient Ex-Ante Reasoningによる安全アライメントの枠組みであるSAFERを提案する。提案手法は,初期評価,ルール検証,経路校正などを通じて,構造化されたex-Ante推論をインスタンス化する。複数のオープンソース LLM の実験により,SAFER は有用性と応答効率を保ちながら安全性を著しく向上することが示された。
論文参考訳（メタデータ） (2025-04-03T16:07:38Z)
SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文参考訳（メタデータ） (2024-10-24T17:14:40Z)
Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。 MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文参考訳（メタデータ） (2024-10-08T16:16:07Z)
Superficial Safety Alignment Hypothesis [8.297367440457508]
本稿では,安全アライメントが安全でないモデルに正しい推論方向を選択するよう教えるべきであるとする,表向きの安全アライメント仮説(SSAH)を提案する。安全に整合した大言語モデル(LLM)における属性クリティカルな4つのコンポーネントを同定する。本研究は,特定の安全クリティカル成分の凍結を微調整中に行うことにより,新しい作業に適応しつつ,その安全性特性を維持できることを示した。
論文参考訳（メタデータ） (2024-10-07T19:53:35Z)
Multitask Mayhem: Unveiling and Mitigating Safety Gaps in LLMs Fine-tuning [1.3307486544794784]
レッドチーム/セーフティアライメントの取り組みは、良質な(有害でない)データの微調整モデルが安全性を損なう可能性があることを示している。本稿では,要約,コード生成,翻訳,分類などの下流タスクの微調整によるタスクの安全性の低下について検討する。我々の研究は、より安全でロバストなモデルを保証するために、一般化されたアライメント対策の必要性を浮き彫りにしている。
論文参考訳（メタデータ） (2024-09-18T08:04:24Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Cross-Task Defense: Instruction-Tuning LLMs for Content Safety [20.00136552026715]
大きな言語モデル(LLM)は、安全性とユーティリティのバランスをとる上での課題に直面します。悪意のある短い質問に対する防御にもかかわらず、不正行為を教えるマニュアルなど、LLMが危険な長文を安全に扱える能力は、まだ不明である。安全関連事例からなる防衛データセットを導入し,学習指導のための単一タスクと混合タスクの損失を提案する。
論文参考訳（メタデータ） (2024-05-24T04:14:32Z)
Towards Comprehensive and Efficient Post Safety Alignment of Large Language Models via Safety Patching [77.36097118561057]
textscSafePatchingは包括的で効率的なPSAのための新しいフレームワークである。 textscSafePatchingはベースラインメソッドよりも包括的で効率的なPSAを実現する。
論文参考訳（メタデータ） (2024-05-22T16:51:07Z)
SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文参考訳（メタデータ） (2024-02-07T17:33:54Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。