Fugu-MT 論文翻訳(概要): A Curious Case of Searching for the Correlation between Training Data and Adversarial Robustness of Transformer Textual Models

論文の概要: A Curious Case of Searching for the Correlation between Training Data and Adversarial Robustness of Transformer Textual Models

arxiv url: http://arxiv.org/abs/2402.11469v1
Date: Sun, 18 Feb 2024 05:58:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-20 20:58:04.782450
Title: A Curious Case of Searching for the Correlation between Training Data and Adversarial Robustness of Transformer Textual Models
Title（参考訳）: 変圧器テクスチャモデルにおけるトレーニングデータと対向ロバスト性との相関関係の探索
Authors: Cuong Dang, Dung D. Le, Thai Le
Abstract要約: 既存の研究によると、微調整されたテキスト変換モデルは最先端の予測性能を実現するが、敵対的なテキスト摂動にも弱い。本稿では,トレーニングデータとモデルロバスト性との間にも強い相関関係があることを証明したい。様々な入力微調整コーパス特性を表す13の異なる特徴を抽出し,それらを用いて微調整モデルの対角的堅牢性を予測する。
参考スコア（独自算出の注目度）: 13.417382097912089
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Existing works have shown that fine-tuned textual transformer models achieve state-of-the-art prediction performances but are also vulnerable to adversarial text perturbations. Traditional adversarial evaluation is often done \textit{only after} fine-tuning the models and ignoring the training data. In this paper, we want to prove that there is also a strong correlation between training data and model robustness. To this end, we extract 13 different features representing a wide range of input fine-tuning corpora properties and use them to predict the adversarial robustness of the fine-tuned models. Focusing mostly on encoder-only transformer models BERT and RoBERTa with additional results for BART, ELECTRA and GPT2, we provide diverse evidence to support our argument. First, empirical analyses show that (a) extracted features can be used with a lightweight classifier such as Random Forest to effectively predict the attack success rate and (b) features with the most influence on the model robustness have a clear correlation with the robustness. Second, our framework can be used as a fast and effective additional tool for robustness evaluation since it (a) saves 30x-193x runtime compared to the traditional technique, (b) is transferable across models, (c) can be used under adversarial training, and (d) robust to statistical randomness. Our code will be publicly available.
Abstract（参考訳）: 既存の研究によると、微調整されたテキスト変換モデルは最先端の予測性能を実現するが、敵対的なテキスト摂動にも弱い。従来の敵対的評価は、モデルの微調整とトレーニングデータを無視して、しばしば \textit{only after} で行われる。本稿では,トレーニングデータとモデルロバスト性との間にも強い相関関係があることを証明したい。この目的のために,入力の微調整コーパス特性を表す13の異なる特徴を抽出し,それらを用いて微調整モデルの敵対的ロバスト性を予測する。主にエンコーダのみのトランスモデル BERT と RoBERTa に着目し,BART,ELECTRA,GPT2 のさらなる結果を得た上で,この議論を裏付けるさまざまな証拠を提供する。まず実証的な分析から (a)抽出した特徴をランダムフォレストなどの軽量分類器を用いて効果的に攻撃成功率を予測することができる。 (b)モデルのロバスト性に最も影響を及ぼす特徴は、ロバスト性と明確に相関する。第2に、このフレームワークは堅牢性評価のための高速かつ効果的な追加ツールとして使用できる。 (a)従来の手法と比較して30x-193xのランタイムを節約する。 (b)モデル間で転送可能である。 (c) 敵対的訓練で使用することができ、 (d)統計的ランダム性に頑健である。私たちのコードは公開されます。

関連論文リスト

Towards Model Resistant to Transferable Adversarial Examples via Trigger Activation [95.3977252782181]
知覚不能な摂動によって特徴づけられる敵対的な例は、彼らの予測を誤解させることで、ディープニューラルネットワークに重大な脅威をもたらす。本稿では,移動可能な敵例(TAE)に対して,より効率的かつ効果的に堅牢性を高めることを目的とした,新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-04-20T09:07:10Z)
A Robust Adversarial Ensemble with Causal (Feature Interaction) Interpretations for Image Classification [9.945272787814941]
本稿では,識別的特徴と生成的モデルを組み合わせた深層アンサンブルモデルを提案する。提案手法は,特徴抽出のためのボトムレベル事前学習型識別ネットワークと,逆入力分布をモデル化したトップレベル生成型分類ネットワークを統合する。
論文参考訳（メタデータ） (2024-12-28T05:06:20Z)
MOREL: Enhancing Adversarial Robustness through Multi-Objective Representation Learning [1.534667887016089]
ディープニューラルネットワーク(DNN)は、わずかに敵対的な摂動に対して脆弱である。トレーニング中の強力な特徴表現学習は、元のモデルの堅牢性を大幅に向上させることができることを示す。本稿では,多目的特徴表現学習手法であるMORELを提案する。
論文参考訳（メタデータ） (2024-10-02T16:05:03Z)
Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文参考訳（メタデータ） (2024-07-26T10:49:14Z)
Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文参考訳（メタデータ） (2023-07-14T07:01:48Z)
Preserving Knowledge Invariance: Rethinking Robustness Evaluation of Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文参考訳（メタデータ） (2023-05-23T12:05:09Z)
Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文参考訳（メタデータ） (2023-03-23T03:13:04Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
Bridging the Gap Between Adversarial Robustness and Optimization Bias [28.56135898767349]
アドリアールの堅牢性はディープラーニングのオープンな課題であり、ほとんどの場合、敵対的なトレーニングを使用して対処されます。トレードオフなしに、完全標準精度とある程度の堅牢性を両立させることが可能であることを示す。特に、線形畳み込みモデルのロバスト性を特徴付け、フーリエ=$ell_infty$ノルムの制約を受ける攻撃に抵抗することを示す。
論文参考訳（メタデータ） (2021-02-17T16:58:04Z)
Trust but Verify: Assigning Prediction Credibility by Counterfactual Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文参考訳（メタデータ） (2020-11-24T19:52:38Z)
Learnable Boundary Guided Adversarial Training [66.57846365425598]
私たちは、あるクリーンモデルからのモデルロジットを使用して、別のロバストモデルの学習をガイドします。我々は、CIFAR-100上で、追加の実データや合成データなしで、新しい最先端のロバスト性を実現する。
論文参考訳（メタデータ） (2020-11-23T01:36:05Z)
Causal Transfer Random Forest: Combining Logged Data and Randomized Experiments for Robust Prediction [8.736551469632758]
本稿では,既存のトレーニングデータとランダム化実験から得られた少量のデータを組み合わせてモデルを訓練するCTRFについて述べる。我々は,Bing Adsプラットフォームにおける合成データ実験と実世界の実験の両方を用いてCTRFを評価する。
論文参考訳（メタデータ） (2020-10-17T03:54:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。