論文の概要: From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework
- arxiv url: http://arxiv.org/abs/2305.18503v1
- Date: Mon, 29 May 2023 14:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 20:06:56.019145
- Title: From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework
- Title(参考訳): 敵対的アームレースからモデル中心評価へ:統一された自動ロバストネス評価フレームワークをモチベーション
- Authors: Yangyi Chen, Hongcheng Gao, Ganqu Cui, Lifan Yuan, Dehan Kong, Hanlu
Wu, Ning Shi, Bo Yuan, Longtao Huang, Hui Xue, Zhiyuan Liu, Maosong Sun, Heng
Ji
- Abstract要約: テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
- 参考スコア(独自算出の注目度): 91.94389491920309
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Textual adversarial attacks can discover models' weaknesses by adding
semantic-preserved but misleading perturbations to the inputs. The long-lasting
adversarial attack-and-defense arms race in Natural Language Processing (NLP)
is algorithm-centric, providing valuable techniques for automatic robustness
evaluation. However, the existing practice of robustness evaluation may exhibit
issues of incomprehensive evaluation, impractical evaluation protocol, and
invalid adversarial samples. In this paper, we aim to set up a unified
automatic robustness evaluation framework, shifting towards model-centric
evaluation to further exploit the advantages of adversarial attacks. To address
the above challenges, we first determine robustness evaluation dimensions based
on model capabilities and specify the reasonable algorithm to generate
adversarial samples for each dimension. Then we establish the evaluation
protocol, including evaluation settings and metrics, under realistic demands.
Finally, we use the perturbation degree of adversarial samples to control the
sample validity. We implement a toolkit RobTest that realizes our automatic
robustness evaluation framework. In our experiments, we conduct a robustness
evaluation of RoBERTa models to demonstrate the effectiveness of our evaluation
framework, and further show the rationality of each component in the framework.
The code will be made public at \url{https://github.com/thunlp/RobTest}.
- Abstract(参考訳): テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
自然言語処理(NLP)における長期にわたる対敵攻撃防御兵器競争はアルゴリズム中心であり、自動ロバストネス評価のための貴重な技術を提供する。
しかし、既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、および無効な敵のサンプルの問題を示す可能性がある。
本稿では,モデル中心の評価へ移行し,敵の攻撃の利点をさらに活用する,統一的なロバストネス評価フレームワークの構築を目標とする。
上記の課題に対処するために,まずモデル能力に基づいてロバスト性評価次元を決定し,各次元に対して逆サンプルを生成する合理的なアルゴリズムを指定する。
そして、評価設定やメトリクスを含む評価プロトコルを現実的な要求のもとに確立する。
最後に, 対向サンプルの摂動度を用いてサンプルの有効性を制御する。
自動ロバストネス評価フレームワークを実現するツールキットRobTestを実装した。
実験では,RoBERTaモデルのロバスト性評価を行い,評価フレームワークの有効性を実証するとともに,フレームワーク内の各コンポーネントの合理性を示す。
コードは \url{https://github.com/thunlp/RobTest} で公開される。
関連論文リスト
- Towards Million-Scale Adversarial Robustness Evaluation With Stronger Individual Attacks [26.422616504640786]
本稿では,ロジット空間ではなく,確率空間における対角的マージン・アタック(Probability Margin Attack, PMA)を提案する。
我々は、百万スケールのデータセットCC1Mを作成し、それを用いて、敵に訓練されたImageNetモデルの最初の百万スケールの対角ロバスト性評価を行う。
論文 参考訳(メタデータ) (2024-11-20T10:41:23Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - A Comprehensive Evaluation Framework for Deep Model Robustness [44.20580847861682]
ディープニューラルネットワーク(DNN)は、幅広いアプリケーションで顕著なパフォーマンスを達成しています。
彼らは敵の防御を動機付ける敵の例に弱い。
本稿では,包括的で厳密で一貫性のある評価指標を含むモデル評価フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-24T01:04:25Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。