論文の概要: Certified Robustness for Large Language Models with Self-Denoising
- arxiv url: http://arxiv.org/abs/2307.07171v1
- Date: Fri, 14 Jul 2023 05:40:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-17 14:52:30.966829
- Title: Certified Robustness for Large Language Models with Self-Denoising
- Title(参考訳): 自己否定型大規模言語モデルのロバスト性
- Authors: Zhen Zhang, Guanhua Zhang, Bairu Hou, Wenqi Fan, Qing Li, Sijia Liu,
Yang Zhang, Shiyu Chang
- Abstract要約: 本稿では,大言語モデル (LLM) を用いて, 劣化した入力を自己認識的に認知する手法を提案する。
本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証方法よりも優れる。
- 参考スコア(独自算出の注目度): 42.916661225753145
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although large language models (LLMs) have achieved great success in vast
real-world applications, their vulnerabilities towards noisy inputs have
significantly limited their uses, especially in high-stake environments. In
these contexts, it is crucial to ensure that every prediction made by large
language models is stable, i.e., LLM predictions should be consistent given
minor differences in the input. This largely falls into the study of certified
robust LLMs, i.e., all predictions of LLM are certified to be correct in a
local region around the input. Randomized smoothing has demonstrated great
potential in certifying the robustness and prediction stability of LLMs.
However, randomized smoothing requires adding noise to the input before model
prediction, and its certification performance depends largely on the model's
performance on corrupted data. As a result, its direct application to LLMs
remains challenging and often results in a small certification radius. To
address this issue, we take advantage of the multitasking nature of LLMs and
propose to denoise the corrupted inputs with LLMs in a self-denoising manner.
Different from previous works like denoised smoothing, which requires training
a separate model to robustify LLM, our method enjoys far better efficiency and
flexibility. Our experiment results show that our method outperforms the
existing certification methods under both certified robustness and empirical
robustness. The codes are available at
https://github.com/UCSB-NLP-Chang/SelfDenoise.
- Abstract(参考訳): 大規模な言語モデル(llm)は、膨大な実世界アプリケーションで大きな成功を収めているが、ノイズの多い入力に対する脆弱性は、特に高スループット環境での使用を著しく制限している。
これらの文脈において、大きな言語モデルによってなされる全ての予測が安定であることを保証することが重要である。
このことは、LLMの全ての予測が入力の周囲の局所領域で正しいと認定される、証明された堅牢なLSMの研究に大きく影響する。
ランダムな平滑化はLLMの堅牢性と予測安定性を証明する大きな可能性を示している。
しかし、ランダム化平滑化には、モデル予測の前に入力にノイズを加える必要があり、その認証性能は、破損したデータに対するモデルの性能に大きく依存する。
結果として、LSMへの直接適用は依然として困難であり、しばしば小さな認証半径となる。
この問題に対処するために, LLM のマルチタスク特性を活用し, 劣化した入力を自己復号化方式で復号化することを提案する。
LLMの堅牢化のために個別のモデルを訓練する必要があるような従来の手法とは異なり、我々の手法ははるかに優れた効率と柔軟性を享受できる。
実験の結果,本手法は,証明された堅牢性と実証的堅牢性の両方の下で,既存の認証手法よりも優れていることがわかった。
コードはhttps://github.com/UCSB-NLP-Chang/SelfDenoiseで公開されている。
関連論文リスト
- Quantifying Prediction Consistency Under Model Multiplicity in Tabular LLMs [10.494477811252034]
微調整された大きな言語モデルは、同じ入力で矛盾する予測を行うような、テクティファインチューニングの多重性につながる可能性がある。
これにより、Tabular LLMの堅牢性と信頼性に関する重要な懸念が持ち上がる。
本研究は,コストのかかるモデル再訓練を伴わずに個々の予測の堅牢性を定量化する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-07-04T22:22:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Advancing the Robustness of Large Language Models through Self-Denoised Smoothing [50.54276872204319]
大規模言語モデル(LLM)は大きな成功を収めたが、敵の摂動に対する脆弱性は大きな懸念を引き起こしている。
本稿では,LLMのマルチタスク特性を活用して,まずノイズの入力を識別し,次にこれらの復号化バージョンに基づいて予測を行う。
LLMのロバスト性を高めるために個別のモデルを訓練する必要がある従来のコンピュータビジョンのスムース化技術とは異なり、本手法は効率と柔軟性を著しく向上させる。
論文 参考訳(メタデータ) (2024-04-18T15:47:00Z) - Evaluation and Improvement of Fault Detection for Large Language Models [30.760472387136954]
本稿では,大規模言語モデル(LLM)における既存の故障検出手法の有効性について検討する。
既存の手法の故障検出能力を高めるために, textbfMutation による予測を行う textbfConfidence textbfSmoothing フレームワーク textbfMuCS を提案する。
論文 参考訳(メタデータ) (2024-04-14T07:06:12Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Purifying Large Language Models by Ensembling a Small Language Model [39.57304668057076]
未処理データによる負の効果からLCMを浄化する簡易かつ容易に実装できる手法を提案する。
良性および小言語モデル(SLM)を用いたLLMのアンサンブルの有効性を実証的に検証した。
論文 参考訳(メタデータ) (2024-02-19T14:00:39Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Generating with Confidence: Uncertainty Quantification for Black-box Large Language Models [37.63939774027709]
自然言語生成(NLG)に特化した大規模言語モデル(LLM)が,最近,有望な機能を示すようになった。
我々は、信頼できない結果が無視されるか、さらなる評価のために得られるような、選択的なNLG*に適用し、いくつかの信頼/不確実性対策を提案し、比較する。
その結果, セマンティックな分散の簡易な測定は, LLM応答の質の信頼性を予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-30T16:31:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。