論文の概要: A Curious Case of Searching for the Correlation between Training Data
and Adversarial Robustness of Transformer Textual Models
- arxiv url: http://arxiv.org/abs/2402.11469v1
- Date: Sun, 18 Feb 2024 05:58:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 20:58:04.782450
- Title: A Curious Case of Searching for the Correlation between Training Data
and Adversarial Robustness of Transformer Textual Models
- Title(参考訳): 変圧器テクスチャモデルにおけるトレーニングデータと対向ロバスト性との相関関係の探索
- Authors: Cuong Dang, Dung D. Le, Thai Le
- Abstract要約: 既存の研究によると、微調整されたテキスト変換モデルは最先端の予測性能を実現するが、敵対的なテキスト摂動にも弱い。
本稿では,トレーニングデータとモデルロバスト性との間にも強い相関関係があることを証明したい。
様々な入力微調整コーパス特性を表す13の異なる特徴を抽出し,それらを用いて微調整モデルの対角的堅牢性を予測する。
- 参考スコア(独自算出の注目度): 13.417382097912089
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Existing works have shown that fine-tuned textual transformer models achieve
state-of-the-art prediction performances but are also vulnerable to adversarial
text perturbations. Traditional adversarial evaluation is often done
\textit{only after} fine-tuning the models and ignoring the training data. In
this paper, we want to prove that there is also a strong correlation between
training data and model robustness. To this end, we extract 13 different
features representing a wide range of input fine-tuning corpora properties and
use them to predict the adversarial robustness of the fine-tuned models.
Focusing mostly on encoder-only transformer models BERT and RoBERTa with
additional results for BART, ELECTRA and GPT2, we provide diverse evidence to
support our argument. First, empirical analyses show that (a) extracted
features can be used with a lightweight classifier such as Random Forest to
effectively predict the attack success rate and (b) features with the most
influence on the model robustness have a clear correlation with the robustness.
Second, our framework can be used as a fast and effective additional tool for
robustness evaluation since it (a) saves 30x-193x runtime compared to the
traditional technique, (b) is transferable across models, (c) can be used under
adversarial training, and (d) robust to statistical randomness. Our code will
be publicly available.
- Abstract(参考訳): 既存の研究によると、微調整されたテキスト変換モデルは最先端の予測性能を実現するが、敵対的なテキスト摂動にも弱い。
従来の敵対的評価は、モデルの微調整とトレーニングデータを無視して、しばしば \textit{only after} で行われる。
本稿では,トレーニングデータとモデルロバスト性との間にも強い相関関係があることを証明したい。
この目的のために,入力の微調整コーパス特性を表す13の異なる特徴を抽出し,それらを用いて微調整モデルの敵対的ロバスト性を予測する。
主にエンコーダのみのトランスモデル BERT と RoBERTa に着目し,BART,ELECTRA,GPT2 のさらなる結果を得た上で,この議論を裏付けるさまざまな証拠を提供する。
まず 実証的な分析から
(a)抽出した特徴をランダムフォレストなどの軽量分類器を用いて効果的に攻撃成功率を予測することができる。
(b)モデルのロバスト性に最も影響を及ぼす特徴は、ロバスト性と明確に相関する。
第2に、このフレームワークは堅牢性評価のための高速かつ効果的な追加ツールとして使用できる。
(a)従来の手法と比較して30x-193xのランタイムを節約する。
(b)モデル間で転送可能である。
(c) 敵対的訓練で使用することができ、
(d)統計的ランダム性に頑健である。
私たちのコードは公開されます。
関連論文リスト
- Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Robust Transferable Feature Extractors: Learning to Defend Pre-Trained
Networks Against White Box Adversaries [69.53730499849023]
また, 予測誤差を誘導するために, 逆例を独立に学習した別のモデルに移すことが可能であることを示す。
本稿では,頑健な伝達可能な特徴抽出器(RTFE)と呼ばれる,ディープラーニングに基づく事前処理機構を提案する。
論文 参考訳(メタデータ) (2022-09-14T21:09:34Z) - Unifying Model Explainability and Robustness for Joint Text
Classification and Rationale Extraction [11.878012909876713]
そこで我々は,AT-BMCという共同分類と合理的抽出モデルを提案する。
混合逆行訓練(AT)は、モデルの堅牢性を改善するために離散的および埋め込み空間における様々な摂動を利用するように設計されており、境界マッチング制約(BMC)は境界情報のガイダンスによりより正確に有理性を見つけるのに役立つ。
ベンチマークデータセットのパフォーマンスは、提案されたAT-BMCが、大きなマージンによる分類と合理性抽出の両方のベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-20T09:48:32Z) - Bridging the Gap Between Adversarial Robustness and Optimization Bias [28.56135898767349]
アドリアールの堅牢性はディープラーニングのオープンな課題であり、ほとんどの場合、敵対的なトレーニングを使用して対処されます。
トレードオフなしに、完全標準精度とある程度の堅牢性を両立させることが可能であることを示す。
特に、線形畳み込みモデルのロバスト性を特徴付け、フーリエ=$ell_infty$ノルムの制約を受ける攻撃に抵抗することを示す。
論文 参考訳(メタデータ) (2021-02-17T16:58:04Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z) - Causal Transfer Random Forest: Combining Logged Data and Randomized
Experiments for Robust Prediction [8.736551469632758]
本稿では,既存のトレーニングデータとランダム化実験から得られた少量のデータを組み合わせてモデルを訓練するCTRFについて述べる。
我々は,Bing Adsプラットフォームにおける合成データ実験と実世界の実験の両方を用いてCTRFを評価する。
論文 参考訳(メタデータ) (2020-10-17T03:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。