論文の概要: A Framework for Real-time Safeguarding the Text Generation of Large Language
- arxiv url: http://arxiv.org/abs/2404.19048v1
- Date: Mon, 29 Apr 2024 18:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:10:13.522666
- Title: A Framework for Real-time Safeguarding the Text Generation of Large Language
- Title(参考訳): 大規模言語のテキスト生成をリアルタイムに保護するためのフレームワーク
- Authors: Ximing Dong, Dayi Lin, Shaowei Wang, Ahmed E. Hassan,
- Abstract要約: 大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つが、倫理的・社会的リスクも伴う。
LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。
LLMsSafeGuardは、ビーム探索アルゴリズムに外部バリデータを統合することで、安全性の制約に違反する候補を拒否する。
- 参考スコア(独自算出の注目度): 12.683042228674694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have significantly advanced natural language processing (NLP) tasks but also pose ethical and societal risks due to their propensity to generate harmful content. To address this, various approaches have been developed to safeguard LLMs from producing unsafe content. However, existing methods have limitations, including the need for training specific control models and proactive intervention during text generation, that lead to quality degradation and increased computational overhead. To mitigate those limitations, we propose LLMSafeGuard, a lightweight framework to safeguard LLM text generation in real-time. LLMSafeGuard integrates an external validator into the beam search algorithm during decoding, rejecting candidates that violate safety constraints while allowing valid ones to proceed. We introduce a similarity based validation approach, simplifying constraint introduction and eliminating the need for control model training. Additionally, LLMSafeGuard employs a context-wise timing selection strategy, intervening LLMs only when necessary. We evaluate LLMSafe-Guard on two tasks, detoxification and copyright safeguarding, and demonstrate its superior performance over SOTA baselines. For instance, LLMSafeGuard reduces the average toxic score of. LLM output by 29.7% compared to the best baseline meanwhile preserving similar linguistic quality as natural output in detoxification task. Similarly, in the copyright task, LLMSafeGuard decreases the Longest Common Subsequence (LCS) by 56.2% compared to baselines. Moreover, our context-wise timing selection strategy reduces inference time by at least 24% meanwhile maintaining comparable effectiveness as validating each time step. LLMSafeGuard also offers tunable parameters to balance its effectiveness and efficiency.
- Abstract(参考訳): 大規模言語モデル(LLM)は、非常に高度な自然言語処理(NLP)タスクを持つが、有害なコンテンツを生成するための適合性のために倫理的・社会的リスクも生じる。
これを解決するために、LLMが安全でないコンテンツを生成するのを防ぐ様々なアプローチが開発されている。
しかし、既存の手法には、特定の制御モデルのトレーニングやテキスト生成時の積極的な介入の必要性など、品質劣化と計算オーバーヘッドの増加につながる制限がある。
これらの制限を緩和するために,LLMテキスト生成をリアルタイムに保護する軽量フレームワークであるLLMSafeGuardを提案する。
LLMSafeGuardは、デコード中のビーム検索アルゴリズムに外部バリデータを統合する。
類似性に基づく検証手法を導入し,制約の導入を簡略化し,制御モデルトレーニングの必要性を排除した。
加えて、LLMSafeGuardはコンテキストワイズタイミング選択戦略を採用しており、必要なときにのみLLMを介入する。
我々は,LSMSafe-Guardを2つのタスク,すなわちデトキシ化と著作権保護を行い,SOTAベースラインよりも優れた性能を示す。
例えば、LLMSafeGuardは、平均的な毒性スコアを下げる。
LLMの出力は29.7%と最良基準値に対して、解毒作業における自然の出力と同様の言語的品質を保っている。
同様に、著作権上のタスクでは、LLMSafeGuardはベースラインに比べてLongest Common Subsequence (LCS)を56.2%削減する。
さらに、文脈的タイミング選択戦略は、各時間ステップの検証に匹敵する有効性を保ちながら、推論時間を少なくとも24%削減する。
LLMSafeGuardは、その効率性と効率のバランスをとるために、調整可能なパラメータも提供している。
関連論文リスト
- Control Large Language Models via Divide and Conquer [94.48784966256463]
本稿では,Lexically Constrained Generation(LCG)に着目し,大規模言語モデル(LLM)のプロンプトベース制御による制御可能生成について検討する。
我々は,レキシカル制約を満たすためのLLMの性能を,プロンプトベース制御により評価し,下流アプリケーションでの有効性を検証した。
論文 参考訳(メタデータ) (2024-10-06T21:20:06Z) - CoCA: Regaining Safety-awareness of Multimodal Large Language Models with Constitutional Calibration [90.36429361299807]
マルチモーダルな大言語モデル (MLLM) は、視覚的な入力を含む会話への関与において顕著な成功を収めている。
視覚的モダリティの統合は、MLLMが悪意のある視覚的入力に影響を受けやすいという、ユニークな脆弱性を導入している。
本稿では,出力分布を校正することでMLLMの安全性を向上するCoCA技術を紹介する。
論文 参考訳(メタデータ) (2024-09-17T17:14:41Z) - SLM as Guardian: Pioneering AI Safety with Small Language Models [6.799423428734095]
より大型のモデルにセーフガード機能を組み込むことで、トレーニングコストの上昇と意図しない有用性の低下が問題となった。
本稿では、有害なクエリ検出とセーフガード応答生成の両方に、より小さなLSMを利用する。
提案手法の有効性を実証し,LLMと比較して,有害なクエリ検出およびセーフガード応答性能を同等又は超過する手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T08:03:15Z) - Robustifying Safety-Aligned Large Language Models through Clean Data Curation [11.273749179260468]
大きな言語モデル(LLM)は、有害なコンテンツを含むデータセットでトレーニングされた場合、脆弱性がある。
本稿では,両シナリオにおける敵対的影響に対処するためのデータキュレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-24T04:50:38Z) - Protecting Your LLMs with Information Bottleneck [20.870610473199125]
本稿では,情報ボトルネック原理に基づく防御機構であるIBProtector(Information Bottleneck Protector)を紹介する。
IBProtectorは、軽量で訓練可能な抽出器によって促進されるプロンプトを選択的に圧縮し、摂動する。
IBProtectorはジェイルブレイク対策において,現在の防御方法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-22T08:16:07Z) - Eyes Closed, Safety On: Protecting Multimodal LLMs via Image-to-Text Transformation [98.02846901473697]
我々は,MLLMの本来の安全意識を生かしたトレーニング不要な保護手法であるECSO(Eyes Closed, Safety On)を提案する。
ECSOは、安全でない画像をテキストに適応的に変換することで、より安全な応答を生成し、予め整列されたLCMの本質的な安全性メカニズムを活性化する。
論文 参考訳(メタデータ) (2024-03-14T17:03:04Z) - Learning to Poison Large Language Models During Instruction Tuning [12.521338629194503]
この研究は、命令チューニングプロセスを利用するのに適した新しいデータ中毒攻撃を設計することで、LLM(Large Language Models)のさらなるセキュリティリスクを特定する。
本稿では,逆方向誘導学習(GBTL)アルゴリズムを提案する。
In-context Learning(ICL)とContinuous Learning(CL)の2つの防衛戦略を提案する。
論文 参考訳(メタデータ) (2024-02-21T01:30:03Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z) - Do-Not-Answer: A Dataset for Evaluating Safeguards in LLMs [59.596335292426105]
本稿では,大規模な言語モデルにおけるセーフガードを評価するための,最初のオープンソースデータセットを収集する。
我々は、自動安全性評価において、GPT-4に匹敵する結果を得るために、BERTライクな分類器をいくつか訓練する。
論文 参考訳(メタデータ) (2023-08-25T14:02:12Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。