論文の概要: ROSE: Robust Selective Fine-tuning for Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2210.09658v1
- Date: Tue, 18 Oct 2022 07:53:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:39:57.446519
- Title: ROSE: Robust Selective Fine-tuning for Pre-trained Language Models
- Title(参考訳): ROSE: 事前学習言語モデルのロバスト選択微調整
- Authors: Lan Jiang, Hao Zhou, Yankai Lin, Peng Li, Jie Zhou, Rui Jiang
- Abstract要約: この問題に対処するために,textbfRObust textbfSEletive fine-tuning (textbfROSE) と呼ばれる新しい微調整手法を提案する。
ROSEは、トレーニング済みのモデルを下流タスクに適応させる際に選択的更新を行い、パラメータの重要で不正な更新をフィルタリングする。
実験により, ROSEは様々な下流NLPタスクにおいて, 対向的ロバスト性を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 38.6075832421374
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even though the large-scale language models have achieved excellent
performances, they suffer from various adversarial attacks. A large body of
defense methods has been proposed. However, they are still limited due to
redundant attack search spaces and the inability to defend against various
types of attacks. In this work, we present a novel fine-tuning approach called
\textbf{RO}bust \textbf{SE}letive fine-tuning (\textbf{ROSE}) to address this
issue. ROSE conducts selective updates when adapting pre-trained models to
downstream tasks, filtering out invaluable and unrobust updates of parameters.
Specifically, we propose two strategies: the first-order and second-order ROSE
for selecting target robust parameters. The experimental results show that ROSE
achieves significant improvements in adversarial robustness on various
downstream NLP tasks, and the ensemble method even surpasses both variants
above. Furthermore, ROSE can be easily incorporated into existing fine-tuning
methods to improve their adversarial robustness further. The empirical analysis
confirms that ROSE eliminates unrobust spurious updates during fine-tuning,
leading to solutions corresponding to flatter and wider optima than the
conventional method. Code is available at
\url{https://github.com/jiangllan/ROSE}.
- Abstract(参考訳): 大規模言語モデルは優れた性能を発揮しているが、様々な敵の攻撃に苦しむ。
多数の防御方法が提案されている。
しかし、冗長な攻撃検索スペースと様々な種類の攻撃に対して防御できないため、依然として制限されている。
本稿では、この問題に対処するために、新しい微調整手法である \textbf{RO}bust \textbf{SE}letive fine-tuning (\textbf{ROSE})を提案する。
ROSEは、トレーニング済みのモデルを下流タスクに適応させる際に選択的更新を行い、パラメータの重要で不正な更新をフィルタリングする。
具体的には,ターゲットロバストパラメータを選択するための一階と二階のローズという2つの戦略を提案する。
実験の結果, ROSE は様々な下流 NLP タスクにおいて, 対向的ロバスト性を大幅に向上し, アンサンブル法は上記の2つの変種を超えていることがわかった。
さらに、ROSEを既存の微調整手法に簡単に組み込むことで、敵の堅牢性をさらに向上することができる。
実験による解析により,ROSEは微調整中に不安定な急激な更新を排除し,従来の方法よりも平坦で広い最適解をもたらすことが確認された。
コードは \url{https://github.com/jiangllan/rose} で入手できる。
関連論文リスト
- READ: Improving Relation Extraction from an ADversarial Perspective [33.44949503459933]
関係抽出(RE)に特化して設計された対角的学習法を提案する。
提案手法では,シーケンスレベルの摂動とトークンレベルの摂動の両方をサンプルに導入し,個別の摂動語彙を用いてエンティティとコンテキストの摂動の探索を改善する。
論文 参考訳(メタデータ) (2024-04-02T16:42:44Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - A Study on FGSM Adversarial Training for Neural Retrieval [3.2634122554914]
ニューラル検索モデルは、項ベースの手法と比較して、ここ数年で顕著な効果を得た。
しかし、これらのモデルは、タイプミスや配布シフトに直面したり、悪意のある攻撃に対して脆弱である可能性がある。
我々は,FGSM(Fast Gradient Sign Method)という,最も単純な逆行訓練手法の1つが,第1段階のローダの堅牢性と有効性を向上させることができることを示した。
論文 参考訳(メタデータ) (2023-01-25T13:28:54Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - Defending Pre-trained Language Models from Adversarial Word
Substitutions Without Performance Sacrifice [42.490810188180546]
敵対的単語置換は 最も困難な テキストの敵対的攻撃方法の1つです
本稿では、ADFAR(Anomaly Detection with Frequency-Aware Randomization)という、コンパクトかつ高性能に保存されたフレームワークを提案する。
本研究では, ADFAR が提案した防衛手法を, より高速な推論速度で大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-05-30T14:24:53Z) - Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood
Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。
DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。
我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-20T18:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。