論文の概要: Advancing LLM Safe Alignment with Safety Representation Ranking
- arxiv url: http://arxiv.org/abs/2505.15710v1
- Date: Wed, 21 May 2025 16:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.772657
- Title: Advancing LLM Safe Alignment with Safety Representation Ranking
- Title(参考訳): LLMセーフアライメントの安全性向上
- Authors: Tianqi Du, Zeming Wei, Quan Chen, Chenheng Zhang, Yisen Wang,
- Abstract要約: モデル自体から隠れ状態を用いて安全な応答を選択するリストワイズランキングフレームワークを提案する。
本手法は、内部モデル状態とリストレベルの監督を直接利用して、微妙な安全信号を捕捉する。
- 参考スコア(独自算出の注目度): 21.525021778951313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of large language models (LLMs) has demonstrated milestone success in a variety of tasks, yet their potential for generating harmful content has raised significant safety concerns. Existing safety evaluation approaches typically operate directly on textual responses, overlooking the rich information embedded in the model's internal representations. In this paper, we propose Safety Representation Ranking (SRR), a listwise ranking framework that selects safe responses using hidden states from the LLM itself. SRR encodes both instructions and candidate completions using intermediate transformer representations and ranks candidates via a lightweight similarity-based scorer. Our approach directly leverages internal model states and supervision at the list level to capture subtle safety signals. Experiments across multiple benchmarks show that SRR significantly improves robustness to adversarial prompts. Our code will be available upon publication.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、様々なタスクにおいてマイルストーンの成功を収めた。
既存の安全性評価アプローチは、通常、モデルの内部表現に埋め込まれた豊富な情報を見渡すことで、テキスト応答を直接操作する。
本稿では,LLM自体から隠れ状態を用いて安全な応答を選択するリストワイドランキングフレームワークであるSafety Representation Ranking (SRR)を提案する。
SRRは中間変圧器表現を用いて命令と候補の完了を符号化し、軽量な類似性ベースのスコアラを介して候補をランク付けする。
本手法は、内部モデル状態とリストレベルの監督を直接利用して、微妙な安全信号を捕捉する。
複数のベンチマーク実験により、SRRは敵のプロンプトに対するロバスト性を大幅に改善することが示された。
私たちのコードは出版時に利用可能になります。
関連論文リスト
- Maybe I Should Not Answer That, but... Do LLMs Understand The Safety of Their Inputs? [0.836362570897926]
このような一般化のための既存手法について検討し、それらが不十分であることを示す。
性能劣化を回避し、安全な性能を維持するために、我々は2段階のフレームワークを提唱する。
最後のトークンに対する最後の隠れ状態は、堅牢なパフォーマンスを提供するのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-02-22T10:31:50Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。