論文の概要: Smoothed Embeddings for Robust Language Models
- arxiv url: http://arxiv.org/abs/2501.16497v1
- Date: Mon, 27 Jan 2025 20:57:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 22:09:10.968693
- Title: Smoothed Embeddings for Robust Language Models
- Title(参考訳): ロバスト言語モデルのための平滑な埋め込み
- Authors: Ryo Hase, Md Rafi Ur Rashid, Ashley Lewis, Jing Liu, Toshiaki Koike-Akino, Kieran Parsons, Ye Wang,
- Abstract要約: 大規模言語モデル(LLM)は、アライメントを抑え、有害な出力を誘導するジェイルブレイク攻撃に対して脆弱である。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTAディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
- 参考スコア(独自算出の注目度): 11.97873981355746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Improving the safety and reliability of large language models (LLMs) is a crucial aspect of realizing trustworthy AI systems. Although alignment methods aim to suppress harmful content generation, LLMs are often still vulnerable to jailbreaking attacks that employ adversarial inputs that subvert alignment and induce harmful outputs. We propose the Randomized Embedding Smoothing and Token Aggregation (RESTA) defense, which adds random noise to the embedding vectors and performs aggregation during the generation of each output token, with the aim of better preserving semantic information. Our experiments demonstrate that our approach achieves superior robustness versus utility tradeoffs compared to the baseline defenses.
- Abstract(参考訳): 大規模言語モデル(LLM)の安全性と信頼性の向上は、信頼できるAIシステムを実現する上で重要な側面である。
アライメント手法は有害なコンテンツ生成を抑制することを目的としているが、LDMはアライメントを覆い、有害なアウトプットを誘導する敵の入力を利用するジェイルブレイク攻撃に対して脆弱であることが多い。
本稿では,埋め込みベクトルにランダムノイズを付加し,各出力トークンの生成時にアグリゲーションを行うRESTA(Randomized Embething and Token Aggregation)ディフェンスを提案する。
本実験は,本手法がベースラインディフェンスと比較して,実用上のトレードオフよりも優れたロバスト性を実現することを示す。
関連論文リスト
- Do We Really Need Curated Malicious Data for Safety Alignment in Multi-modal Large Language Models? [83.53005932513155]
MLLM(Multi-modal large language model)は大きな進歩を遂げているが、その安全性は依然として限られている。
そこで我々は, 単純明快な拒絶文に代えて, 少数の良性命令追従データに対して, MLLMを微調整する手法を提案する。
論文 参考訳(メタデータ) (2025-04-14T09:03:51Z) - CeTAD: Towards Certified Toxicity-Aware Distance in Vision Language Models [16.5022773312661]
本稿では,ジェイルブレイク攻撃に対する大規模視覚言語モデルの保護を目的とした,普遍的な認証防衛フレームワークを提案する。
まず、悪意のある応答と意図した応答のセマンティックな差異を定量化する新しい距離尺度を提案する。
そして, ランダム化スムーシングを用いて, 形式的堅牢性を保証するための回帰認証手法を考案する。
論文 参考訳(メタデータ) (2025-03-08T17:33:55Z) - Improving LLM Safety Alignment with Dual-Objective Optimization [65.41451412400609]
大規模言語モデル(LLM)の既存のトレーニング時間安全アライメント技術は、ジェイルブレイク攻撃に対して脆弱なままである。
本研究では,DPOの目的を2つの構成要素にまとめる安全アライメントの改善について提案する。(1) 安全でない世代が部分的に発生しても拒否を促す頑健な拒絶訓練,(2) 有害な知識の未学習。
論文 参考訳(メタデータ) (2025-03-05T18:01:05Z) - A generative approach to LLM harmfulness detection with special red flag tokens [15.796683630119654]
我々はレッドフラッグトークン(rf>)と呼ばれる特別なトークンでモデルの語彙を拡張することを提案する。
本発明の安全性訓練方法は、会話中に常に有害な生成分類器にLLMを効果的に増強する。
また、入力プロンプトだけでなく、生成された各回答を評価し、サンプリングベースの攻撃に対してより強力な防御を提供する。
論文 参考訳(メタデータ) (2025-02-22T21:48:48Z) - Watching the AI Watchdogs: A Fairness and Robustness Analysis of AI Safety Moderation Classifiers [5.35599092568615]
安全モデレーション(ASM)分類器は、ソーシャルメディアプラットフォーム上のコンテンツを適度に扱うように設計されている。
これらの分類器が少数民族のユーザーに属するコンテンツを不当に分類しないことを確実にすることが重要である。
そこで本研究では,広く使用されている4つのオープンソースASM分類器の公平性とロバスト性について検討する。
論文 参考訳(メタデータ) (2025-01-23T01:04:00Z) - Retention Score: Quantifying Jailbreak Risks for Vision Language Models [60.48306899271866]
VLM(Vision-Language Models)はLarge Language Models (LLM)と統合され、マルチモーダル機械学習機能を強化する。
本研究の目的は, モデル安全コンプライアンスを損なう可能性のある脱獄攻撃に対するVLMのレジリエンスを評価し, 有害な出力をもたらすことにある。
逆入力摂動に対するVLMの頑健性を評価するために,textbfRetention Scoreと呼ばれる新しい指標を提案する。
論文 参考訳(メタデータ) (2024-12-23T13:05:51Z) - Efficient Adversarial Training in LLMs with Continuous Attacks [99.5882845458567]
大規模言語モデル(LLM)は、安全ガードレールをバイパスできる敵攻撃に対して脆弱である。
本稿では,2つの損失からなる高速対向訓練アルゴリズム(C-AdvUL)を提案する。
C-AdvIPOは、対向的に堅牢なアライメントのためのユーティリティデータを必要としない、対向型のIPOである。
論文 参考訳(メタデータ) (2024-05-24T14:20:09Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。