論文の概要: A Framework for Real-time Safeguarding the Text Generation of Large Language
- arxiv url: http://arxiv.org/abs/2404.19048v1
- Date: Mon, 29 Apr 2024 18:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:10:13.522666
- Title: A Framework for Real-time Safeguarding the Text Generation of Large Language
- Title(参考訳): 大規模言語のテキスト生成をリアルタイムに保護するためのフレームワーク
- Authors: Ximing Dong, Dayi Lin, Shaowei Wang, Ahmed E. Hassan,
- Abstract要約: 大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つが、倫理的・社会的リスクも伴う。
LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。
LLMsSafeGuardは、ビーム探索アルゴリズムに外部バリデータを統合することで、安全性の制約に違反する候補を拒否する。
- 参考スコア(独自算出の注目度): 12.683042228674694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significantly advanced natural language processing (NLP) tasks but also pose ethical and societal risks due to their propensity to generate harmful content. To address this, various approaches have been developed to safeguard LLMs from producing unsafe content. However, existing methods have limitations, including the need for training specific control models and proactive intervention during text generation, that lead to quality degradation and increased computational overhead. To mitigate those limitations, we propose LLMSafeGuard, a lightweight framework to safeguard LLM text generation in real-time. LLMSafeGuard integrates an external validator into the beam search algorithm during decoding, rejecting candidates that violate safety constraints while allowing valid ones to proceed. We introduce a similarity based validation approach, simplifying constraint introduction and eliminating the need for control model training. Additionally, LLMSafeGuard employs a context-wise timing selection strategy, intervening LLMs only when necessary. We evaluate LLMSafe-Guard on two tasks, detoxification and copyright safeguarding, and demonstrate its superior performance over SOTA baselines. For instance, LLMSafeGuard reduces the average toxic score of. LLM output by 29.7% compared to the best baseline meanwhile preserving similar linguistic quality as natural output in detoxification task. Similarly, in the copyright task, LLMSafeGuard decreases the Longest Common Subsequence (LCS) by 56.2% compared to baselines. Moreover, our context-wise timing selection strategy reduces inference time by at least 24% meanwhile maintaining comparable effectiveness as validating each time step. LLMSafeGuard also offers tunable parameters to balance its effectiveness and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つが、有害なコンテンツを生成するための適合性のために倫理的・社会的リスクも生じる。
これを解決するために、LLMが安全でないコンテンツを生成するのを防ぐ様々なアプローチが開発されている。
しかし、既存の手法には、特定の制御モデルのトレーニングやテキスト生成時の積極的な介入の必要性など、品質劣化と計算オーバーヘッドの増加につながる制限がある。
これらの制限を緩和するために,LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。
LLMSafeGuardは、デコード中のビーム検索アルゴリズムに外部バリデータを統合する。
類似性に基づく検証手法を導入し,制約の導入を簡略化し,制御モデルトレーニングの必要性を排除した。
加えて、LLMSafeGuardはコンテキストワイズタイミング選択戦略を採用しており、必要なときにのみLLMを介入する。
我々は,LSMSafe-Guardを2つのタスク,すなわちデトキシ化と著作権保護を行い,SOTAベースラインよりも優れた性能を示す。
例えば、LLMSafeGuardは、平均的な毒性スコアを下げる。
LLMの出力は29.7%と最良基準値に対して、解毒作業における自然の出力と同様の言語的品質を保っている。
同様に、著作権上のタスクでは、LLMSafeGuardはベースラインに比べてLongest Common Subsequence (LCS)を56.2%削減する。
さらに、文脈的タイミング選択戦略は、各時間ステップの検証に匹敵する有効性を保ちながら、推論時間を少なくとも24%削減する。
LLMSafeGuardは、その効率性と効率のバランスをとるために、調整可能なパラメータも提供している。
関連論文リスト
- SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Safe LoRA: the Silver Lining of Reducing Safety Risks when Fine-tuning Large Language Models [51.20476412037321]
カスタマイズされたデータセット、ドメイン固有のタスク、その他のプライベートニーズに対するパフォーマンスを高めるためには、微調整された大きな言語モデル(LLM)が必要である。
Safe LoRAは、選択したレイヤからのLoRA重みのプロジェクションを安全に整合したサブスペースに導入することで、オリジナルのLoRA実装のワンラインパッチである。
我々の実験は、純粋に悪意のあるデータに対して微調整を行う場合、Safe LoRAは元のアライメントモデルと同様の安全性を保っていることを示した。
論文 参考訳(メタデータ) (2024-05-27T05:04:05Z) - Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:50:38Z) - Cross-Task Defense: Instruction-Tuning LLMs for Content Safety [20.00136552026715]
大きな言語モデル(LLM)は、安全性とユーティリティのバランスをとる上での課題に直面します。
悪意のある短い質問に対する防御にもかかわらず、不正行為を教えるマニュアルなど、LLMが危険な長文を安全に扱える能力は、まだ不明である。
安全関連事例からなる防衛データセットを導入し,学習指導のための単一タスクと混合タスクの損失を提案する。
論文 参考訳(メタデータ) (2024-05-24T04:14:32Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - Silent Guardian: Protecting Text from Malicious Exploitation by Large Language Models [63.91178922306669]
大規模言語モデル(LLM)に対するテキスト保護機構であるSilent Guardianを紹介する。
保護されるテキストを慎重に修正することで、TPEはLDMを誘導して最初にエンドトークンをサンプリングし、直接相互作用を終了させることができる。
本研究では,SGがターゲットテキストを種々の構成で効果的に保護し,保護成功率の約100%を達成できることを示す。
論文 参考訳(メタデータ) (2023-12-15T10:30:36Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。