Fugu-MT 論文翻訳(概要): Prompt-Driven LLM Safeguarding via Directed Representation Optimization

論文の概要: Prompt-Driven LLM Safeguarding via Directed Representation Optimization

arxiv url: http://arxiv.org/abs/2401.18018v1
Date: Wed, 31 Jan 2024 17:28:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-01 13:39:11.378644
Title: Prompt-Driven LLM Safeguarding via Directed Representation Optimization
Title（参考訳）: Directed Representation Optimization を用いたプロンプト駆動 LLM セーフガード
Authors: Chujie Zheng, Fan Yin, Hao Zhou, Fandong Meng, Jie Zhou, Kai-Wei Chang, Minlie Huang, Nanyun Peng
Abstract要約: モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。これらの知見に触発されて,自動安全プロンプト最適化のためのDRO法を提案する。 DROは安全性のプロンプトを継続的かつ訓練可能な埋め込みとして扱い、モデルの拒絶確率が増大する方向に沿って有害/有害なクエリの表現を移動させる。
参考スコア（独自算出の注目度）: 178.612893285033
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prepending model inputs with safety prompts is a common practice of safeguarding large language models (LLMs) from complying with queries that contain harmful intents. However, the working mechanisms of safety prompts have not yet been fully understood, which hinders the potential for automatically optimizing them for improved LLM safety. Motivated by this problem, we investigate the impact of safety prompts from the perspective of model representations. We find that in models' representation space, harmful and harmless queries can be largely distinguished, but this is not noticeably enhanced by safety prompts. Instead, the queries' representations are moved by different safety prompts in similar directions, where models become more prone to refusal (i.e., refusing to provide assistance) even when the queries are harmless. Inspired by these findings, we propose a method called DRO (Directed Representation Optimization) for automatic safety prompt optimization. DRO treats safety prompts as continuous, trainable embeddings and learns to move the representations of harmful/harmless queries along/opposite the direction in which the model's refusal probability increases. We demonstrate that DRO remarkably improves the safeguarding performance of human-crafted safety prompts and outperforms strong baselines, as evaluated on out-of-domain benchmarks, without compromising the general model capability.
Abstract（参考訳）: モデル入力を安全プロンプトで予測することは、大きな言語モデル(LLM)が有害な意図を含むクエリに従わないようにする一般的な方法である。しかし、安全プロンプトの動作メカニズムはまだ完全には理解されておらず、LCMの安全性向上のために自動的に最適化する可能性を妨げている。本稿では, モデル表現の観点から, 安全プロンプトの影響について検討する。モデル表現空間において、有害で有害なクエリは、大きく区別できるが、これは安全プロンプトによって顕著に強化されない。代わりに、クエリの表現は、同じ方向に異なる安全プロンプトによって移動され、クエリが無害である場合でもモデルが拒否する(つまり、補助の提供を拒否する)傾向がある。そこで本研究では,DRO(Directed Representation Optimization)と呼ばれる自動安全プロンプト最適化手法を提案する。 DROは安全性のプロンプトを継続的かつ訓練可能な埋め込みとして扱い、モデルの拒絶確率が増加する方向に沿って有害/有害なクエリの表現を移動させる。そこで本研究では,DROは,汎用モデル性能を損なうことなく,人造安全プロンプトの保護性能を著しく向上し,強力なベースラインを向上することを示した。

関連論文リスト

Advancing LLM Safe Alignment with Safety Representation Ranking [21.525021778951313]
モデル自体から隠れ状態を用いて安全な応答を選択するリストワイズランキングフレームワークを提案する。本手法は、内部モデル状態とリストレベルの監督を直接利用して、微妙な安全信号を捕捉する。
論文参考訳（メタデータ） (2025-05-21T16:21:29Z)
Think Before Refusal : Triggering Safety Reflection in LLMs to Mitigate False Refusal Behavior [59.20260988638777]
本研究は, 応答発生前の安全反射の促進により, 虚偽の拒絶行動が軽減されることを実証する。 15種類の事前訓練モデルを対象としたアブレーション実験において, 安全性を考慮した微調整モデルでは, 誤検知の挙動が著しく低下することがわかった。
論文参考訳（メタデータ） (2025-03-22T23:35:49Z)
Safety is Not Only About Refusal: Reasoning-Enhanced Fine-tuning for Interpretable LLM Safety [31.933503076797148]
大きな言語モデル(LLM)は、従来の安全アライメントの弱点を利用するジェイルブレイク攻撃に対して脆弱である。解釈可能なLLM安全性のための推論強化ファインタニング(Rational)を提案する。合理的列車は、応答前に明確な安全な推論を行うようにモデル化する。
論文参考訳（メタデータ） (2025-03-06T22:47:45Z)
Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs? [0.836362570897926]
このような一般化のための既存手法について検討し、それらが不十分であることを示す。性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
論文参考訳（メタデータ） (2025-02-22T10:31:50Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
DROJ: A Prompt-Driven Attack against Large Language Models [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにまたがる例外的な機能を示している。大規模なアライメント努力にもかかわらず、LLMは相変わらず敵の脱獄攻撃を受けやすいままである。我々はDROJ(Directed Rrepresentation Optimization Jailbreak)という新しいアプローチを導入する。
論文参考訳（メタデータ） (2024-11-14T01:48:08Z)
Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.658844160259104]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。 LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文参考訳（メタデータ） (2024-10-09T12:09:30Z)
Aligning LLMs to Be Robust Against Prompt Injection [55.07562650579068]
インジェクション攻撃に対してLCMをより堅牢にするための強力なツールとしてアライメントが有効であることを示す。私たちのメソッド -- SecAlign -- は、最初に、プロンプトインジェクション攻撃をシミュレートしてアライメントデータセットを構築します。実験の結果,SecAlign は LLM を大幅に強化し,モデルの実用性に悪影響を及ぼすことが示された。
論文参考訳（メタデータ） (2024-10-07T19:34:35Z)
HarmAug: Effective Data Augmentation for Knowledge Distillation of Safety Guard Models [92.85175340702125]
本研究では,大規模な教師の安全ガードモデルを,バイナリ有害度ラベル付き命令応答ペアのラベル付きデータセットを用いて,より小さなモデルに蒸留する。本稿では,LLMをジェイルブレイクして有害な命令を発生させる単純なデータ拡張手法であるHarmAugを提案する。私たちのHarmAugは、70億以上のパラメータを持つ大規模モデルに匹敵するF1スコアを達成し、計算コストの25%未満で運用しながら、AUPRCでそれを上回るパフォーマンスを実現しています。
論文参考訳（メタデータ） (2024-10-02T13:12:13Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文参考訳（メタデータ） (2024-05-30T08:03:15Z)
ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。 6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2024-02-19T06:58:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。