論文の概要: Advancing the Robustness of Large Language Models through Self-Denoised Smoothing
- arxiv url: http://arxiv.org/abs/2404.12274v1
- Date: Thu, 18 Apr 2024 15:47:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-19 19:02:00.789334
- Title: Advancing the Robustness of Large Language Models through Self-Denoised Smoothing
- Title(参考訳): 自己認識型平滑化による大規模言語モデルのロバスト性向上
- Authors: Jiabao Ji, Bairu Hou, Zhen Zhang, Guanhua Zhang, Wenqi Fan, Qing Li, Yang Zhang, Gaowen Liu, Sijia Liu, Shiyu Chang,
- Abstract要約: 大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
- 参考スコア(独自算出の注目度): 50.54276872204319
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although large language models (LLMs) have achieved significant success, their vulnerability to adversarial perturbations, including recent jailbreak attacks, has raised considerable concerns. However, the increasing size of these models and their limited access make improving their robustness a challenging task. Among various defense strategies, randomized smoothing has shown great potential for LLMs, as it does not require full access to the model's parameters or fine-tuning via adversarial training. However, randomized smoothing involves adding noise to the input before model prediction, and the final model's robustness largely depends on the model's performance on these noise corrupted data. Its effectiveness is often limited by the model's sub-optimal performance on noisy data. To address this issue, we propose to leverage the multitasking nature of LLMs to first denoise the noisy inputs and then to make predictions based on these denoised versions. We call this procedure self-denoised smoothing. Unlike previous denoised smoothing techniques in computer vision, which require training a separate model to enhance the robustness of LLMs, our method offers significantly better efficiency and flexibility. Our experimental results indicate that our method surpasses existing methods in both empirical and certified robustness in defending against adversarial attacks for both downstream tasks and human alignments (i.e., jailbreak attacks). Our code is publicly available at https://github.com/UCSB-NLP-Chang/SelfDenoise
- Abstract(参考訳): 大きな言語モデル(LLM)は大きな成功を収めているが、最近のジェイルブレイク攻撃を含む敵の摂動に対する脆弱性は、かなりの懸念を引き起こしている。
しかし、これらのモデルのサイズが増大し、アクセスが制限されるため、堅牢性の向上は難しい課題である。
様々な防衛戦略の中で、ランダム化された平滑化は、モデルのパラメータへの完全なアクセスや、敵の訓練による微調整を必要としないため、LLMにとって大きな可能性を示している。
しかし、ランダム化された平滑化は、モデル予測の前に入力にノイズを加えることを含み、最終モデルの堅牢性は、これらのノイズの破損したデータに対するモデルの性能に大きく依存する。
その効果は、しばしばノイズの多いデータに対するモデルの準最適性能によって制限される。
この問題に対処するために,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行うことを提案する。
私たちはこの手順を自己否定的平滑化(self-denoized smoothing)と呼んでいる。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
実験の結果,本手法は,ダウンストリームタスクと人的アライメント(ジェイルブレイク攻撃)の双方に対する敵攻撃に対する防御において,実証的および証明されたロバスト性の両方において既存の手法を超越していることがわかった。
私たちのコードはhttps://github.com/UCSB-NLP-Chang/SelfDenoiseで公開されています。
関連論文リスト
- Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Partially Recentralization Softmax Loss for Vision-Language Models Robustness [8.78222772167501]
事前学習したマルチモーダルモデルの損失関数を変更することで得られる対向的ロバスト性について検討する。
実験の結果、訓練済みモデルの微調整後、一般的な攻撃に対して、逆方向の頑健性を大幅に改善できることが判明した。
論文 参考訳(メタデータ) (2024-02-06T01:44:38Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - FineQuant: Unlocking Efficiency with Fine-Grained Weight-Only
Quantization for LLMs [9.072821427818557]
大規模言語モデル(LLM)は、様々な言語タスクで最先端のパフォーマンスを達成しているが、実用的なデプロイメントには課題がある。
メモリ消費を削減し,LLMの推論を高速化する,効率的な重みのみの量子化法を提案する。
我々は,OPT-175Bや内部MoEモデルのような大規模オープンソースモデルに対するアプローチを評価し,スループットを最大3.65倍に向上しながら,最小限の精度の損失を示す。
論文 参考訳(メタデータ) (2023-08-16T23:57:41Z) - Certified Robustness for Large Language Models with Self-Denoising [42.916661225753145]
本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。
本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
論文 参考訳(メタデータ) (2023-07-14T05:40:24Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Virtual Data Augmentation: A Robust and General Framework for
Fine-tuning Pre-trained Models [51.46732511844122]
強力な事前訓練型言語モデル(PLM)は、小さな摂動や意図的な攻撃によって騙されることがある。
VDA(Virtual Data Augmentation)は,PLMを高度に微調整するための一般的なフレームワークである。
本手法は, PLMの堅牢性を向上し, 敵攻撃時の性能劣化を軽減する。
論文 参考訳(メタデータ) (2021-09-13T09:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。