論文の概要: Adversarial Robustness through Dynamic Ensemble Learning
- arxiv url: http://arxiv.org/abs/2412.16254v1
- Date: Fri, 20 Dec 2024 05:36:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:52:45.560742
- Title: Adversarial Robustness through Dynamic Ensemble Learning
- Title(参考訳): 動的アンサンブル学習による対人ロバスト性
- Authors: Hetvi Waghela, Jaydip Sen, Sneha Rakshit,
- Abstract要約: 敵対的攻撃は、事前訓練された言語モデル(PLM)の信頼性に重大な脅威をもたらす
本稿では,このような攻撃に対するPLMの堅牢性を高めるための新しいスキームであるDynamic Ensemble Learning (ARDEL) による対逆ロバスト性について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Adversarial attacks pose a significant threat to the reliability of pre-trained language models (PLMs) such as GPT, BERT, RoBERTa, and T5. This paper presents Adversarial Robustness through Dynamic Ensemble Learning (ARDEL), a novel scheme designed to enhance the robustness of PLMs against such attacks. ARDEL leverages the diversity of multiple PLMs and dynamically adjusts the ensemble configuration based on input characteristics and detected adversarial patterns. Key components of ARDEL include a meta-model for dynamic weighting, an adversarial pattern detection module, and adversarial training with regularization techniques. Comprehensive evaluations using standardized datasets and various adversarial attack scenarios demonstrate that ARDEL significantly improves robustness compared to existing methods. By dynamically reconfiguring the ensemble to prioritize the most robust models for each input, ARDEL effectively reduces attack success rates and maintains higher accuracy under adversarial conditions. This work contributes to the broader goal of developing more secure and trustworthy AI systems for real-world NLP applications, offering a practical and scalable solution to enhance adversarial resilience in PLMs.
- Abstract(参考訳): 敵攻撃は、GPT、BERT、RoBERTa、T5といった事前訓練された言語モデル(PLM)の信頼性に重大な脅威をもたらす。
本稿では,このような攻撃に対するPLMの堅牢性を高めるための新しいスキームであるDynamic Ensemble Learning (ARDEL) による対逆ロバスト性について述べる。
ARDELは複数のPLMの多様性を活用し、入力特性と検出された対角パターンに基づいてアンサンブル構成を動的に調整する。
ARDELの鍵となるコンポーネントは、動的重み付けのためのメタモデル、対向パターン検出モジュール、正規化技術による対向トレーニングである。
標準化されたデータセットと様々な敵攻撃シナリオを用いた総合的な評価は、ARDELが既存の手法に比べてロバスト性を大幅に向上することを示している。
アンサンブルを動的に再構成して各入力に対して最も堅牢なモデルを優先順位付けすることにより、ARDELは攻撃成功率を効果的に低減し、敵の条件下で高い精度を維持する。
この研究は、現実世界のNLPアプリケーションのためのよりセキュアで信頼性の高いAIシステムを開発するという、より広範な目標に貢献し、PLMにおける敵のレジリエンスを高めるための実用的でスケーラブルなソリューションを提供する。
関連論文リスト
- A Hybrid Defense Strategy for Boosting Adversarial Robustness in Vision-Language Models [9.304845676825584]
本稿では,複数の攻撃戦略と高度な機械学習技術を統合した,新たな敵訓練フレームワークを提案する。
CIFAR-10 や CIFAR-100 などの実世界のデータセットで行った実験により,提案手法がモデルロバスト性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-18T23:47:46Z) - Module-wise Adaptive Adversarial Training for End-to-end Autonomous Driving [33.90341803416033]
エンドツーエンドの自律運転モデルのためのモジュールワイド適応適応適応訓練(MA2T)を提案する。
本稿では,異なるモジュールが入力される前にノイズを注入するモジュールワイドノイズインジェクションについて紹介する。
また,各モジュールの損失重みを適応的に学習・調整するために,蓄積した重み変化を組み込んだ動的重み蓄積適応を導入する。
論文 参考訳(メタデータ) (2024-09-11T15:00:18Z) - Dynamic Label Adversarial Training for Deep Learning Robustness Against Adversarial Attacks [11.389689242531327]
対人訓練は、モデルの堅牢性を高める最も効果的な方法の1つである。
従来のアプローチでは、主に敵の訓練に静的接地真理を用いるが、しばしば強固なオーバーフィッティングを引き起こす。
本稿では,動的ラベル対逆トレーニング(DYNAT)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-23T14:25:12Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Dynamic ensemble selection based on Deep Neural Network Uncertainty
Estimation for Adversarial Robustness [7.158144011836533]
本研究では,動的アンサンブル選択技術を用いてモデルレベルの動的特性について検討する。
トレーニング段階では、ディリクレ分布はサブモデルの予測分布の先行として適用され、パラメータ空間における多様性制約が導入された。
テストフェーズでは、最終的な予測のための不確かさ値のランクに基づいて、特定のサブモデルが動的に選択される。
論文 参考訳(メタデータ) (2023-08-01T07:41:41Z) - Self-Ensemble Adversarial Training for Improved Robustness [14.244311026737666]
敵の訓練は、あらゆる種類の防衛方法において、様々な敵の攻撃に対する最強の戦略である。
最近の研究は主に新しい損失関数や正規化器の開発に重点を置いており、重み空間の特異な最適点を見つけようとしている。
我々は,歴史モデルの重みを平均化し,頑健な分類器を生成するための,単純だが強力なemphSelf-Ensemble Adversarial Training (SEAT)法を考案した。
論文 参考訳(メタデータ) (2022-03-18T01:12:18Z) - Interpolated Joint Space Adversarial Training for Robust and
Generalizable Defenses [82.3052187788609]
敵の訓練(AT)は、敵の攻撃に対する最も信頼できる防御の1つと考えられている。
近年の研究では、新たな脅威モデルの下での対向サンプルによる一般化の改善が示されている。
我々は、JSTM(Joint Space Threat Model)と呼ばれる新しい脅威モデルを提案する。
JSTMでは,新たな敵攻撃・防衛手法が開発されている。
論文 参考訳(メタデータ) (2021-12-12T21:08:14Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z) - Adversarial Distributional Training for Robust Deep Learning [53.300984501078126]
逆行訓練(AT)は、逆行例によるトレーニングデータを増やすことにより、モデルロバスト性を改善する最も効果的な手法の一つである。
既存のAT手法の多くは、敵の例を作らせるために特定の攻撃を採用しており、他の目に見えない攻撃に対する信頼性の低い堅牢性につながっている。
本稿では,ロバストモデル学習のための新しいフレームワークであるADTを紹介する。
論文 参考訳(メタデータ) (2020-02-14T12:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。