論文の概要: Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders
- arxiv url: http://arxiv.org/abs/2407.06851v1
- Date: Tue, 9 Jul 2024 13:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:57:30.812857
- Title: Safe-Embed: Unveiling the Safety-Critical Knowledge of Sentence Encoders
- Title(参考訳): セーフエンベッド: 文エンコーダの安全批判的知識を明らかにする
- Authors: Jinseok Kim, Jaewon Jung, Sangyeop Kim, Sohyung Park, Sungzoon Cho,
- Abstract要約: UnsafeプロンプトはLarge Language Models (LLM)に重大な脅威をもたらす
本稿では,安全でないプロンプトと区別する文エンコーダの可能性について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリパーティメトリックを導入します。
- 参考スコア(独自算出の注目度): 5.070104802923903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive capabilities of Large Language Models (LLMs) in various tasks, their vulnerability to unsafe prompts remains a critical issue. These prompts can lead LLMs to generate responses on illegal or sensitive topics, posing a significant threat to their safe and ethical use. Existing approaches attempt to address this issue using classification models, but they have several drawbacks. With the increasing complexity of unsafe prompts, similarity search-based techniques that identify specific features of unsafe prompts provide a more robust and effective solution to this evolving problem. This paper investigates the potential of sentence encoders to distinguish safe from unsafe prompts, and the ability to classify various unsafe prompts according to a safety taxonomy. We introduce new pairwise datasets and the Categorical Purity (CP) metric to measure this capability. Our findings reveal both the effectiveness and limitations of existing sentence encoders, proposing directions to improve sentence encoders to operate as more robust safety detectors. Our code is available at https://github.com/JwdanielJung/Safe-Embed.
- Abstract(参考訳): さまざまなタスクにおけるLLM(Large Language Models)の印象的な機能にもかかわらず、安全でないプロンプトに対する脆弱性は依然として重大な問題である。
これらのプロンプトは、LLMに違法または機密性の高いトピックに対する反応を誘導し、安全で倫理的な使用に重大な脅威をもたらす可能性がある。
既存のアプローチでは、分類モデルを使ってこの問題に対処しようとするが、いくつかの欠点がある。
安全でないプロンプトの複雑さの増大に伴い、安全でないプロンプトの特定の特徴を特定する類似性検索ベースの技術は、この進化する問題に対してより堅牢で効果的な解決策を提供する。
本稿では, 安全でないプロンプトと安全でないプロンプトを区別する文エンコーダの可能性と, 安全分類に基づく様々なアンセーフなプロンプトを分類する能力について検討する。
我々は、この能力を測定するために、新しいペアワイズデータセットとカテゴリ純粋度(CP)メトリクスを導入します。
以上の結果から,既存の文エンコーダの有効性と限界が明らかとなり,文エンコーダをより堅牢な安全検知器として運用するための方向性が提案された。
私たちのコードはhttps://github.com/JwdanielJung/Safe-Embed.comで入手可能です。
関連論文リスト
- Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - SafetyAnalyst: Interpretable, transparent, and steerable safety moderation for AI behavior [56.10557932893919]
我々は、新しいAI安全モデレーションフレームワークであるSafetyAnalystを紹介する。
AIの振る舞いを考えると、SafetyAnalystはチェーン・オブ・シークレット・推論を使用してその潜在的な結果を分析する。
あらゆる有害かつ有益な効果を、完全に解釈可能な重みパラメータを用いて有害度スコアに集約する。
論文 参考訳(メタデータ) (2024-10-22T03:38:37Z) - Root Defence Strategies: Ensuring Safety of LLM at the Decoding Level [10.476222570886483]
大規模言語モデル (LLM) は様々な産業で大きな有用性を示している。
LLMが進むにつれて、不正または悪意のある命令プロンプトによって有害な出力のリスクが増大する。
本稿では, LLMが有害な出力を認識する能力について検討し, 従来のトークンの危険性を評価する能力を明らかにし, 定量化する。
論文 参考訳(メタデータ) (2024-10-09T12:09:30Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - How Safe is Your Safety Metric? Automatic Concatenation Tests for Metric Reliability [9.355471292024061]
有害性評価基準は、大言語モデルから安全でない応答をフィルタリングすることを目的としている。
個々の有害なプロンプト-レスポンスペアに適用すると、リスクの高いスコアを割り当てることで、それらを安全でないと正しくフラグ付けする。
しかし、同じペアがラベル付けされている場合、メトリクスの決定は予期せず逆転し、組み合わせたコンテンツを低いスコアで安全にラベル付けすることで、有害なテキストがフィルタをバイパスすることができる。
我々は、GPTベースの審査員のような高度な指標を含む複数の安全指標が、この非安全行動を示すことを発見した。
論文 参考訳(メタデータ) (2024-08-22T09:57:57Z) - SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models [5.6874111521946356]
安全に整合した言語モデルは、しばしば脆弱で不均衡な安全メカニズムを示す。
文脈適応型デコード型安全アライメント戦略であるSafeInferを提案する。
HarmEvalは、広範な安全性評価のための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-06-18T05:03:23Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z) - Certifying LLM Safety against Adversarial Prompting [70.96868018621167]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。
我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文 参考訳(メタデータ) (2023-09-06T04:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。