論文の概要: ADVSCORE: A Metric for the Evaluation and Creation of Adversarial Benchmarks
- arxiv url: http://arxiv.org/abs/2406.16342v1
- Date: Mon, 24 Jun 2024 06:27:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 16:03:25.268675
- Title: ADVSCORE: A Metric for the Evaluation and Creation of Adversarial Benchmarks
- Title(参考訳): ADVSCORE: 逆ベンチマークの評価と作成のためのメトリクス
- Authors: Yoo Yeon Sung, Eve Fleisig, Ishani Mondal, Jordan Lee Boyd-Graber,
- Abstract要約: 逆ベンチマークは、人間ではなく、愚かなモデルを提供するサンプルを提供することで、モデルの能力を検証する。
本稿では,敵対的データセットの識別と識別を定量化する指標であるADVSCOREを紹介する。
私たちはADVSCOREを使用して、高品質な逆境データセットを書くインセンティブを与えるデータセット生成パイプラインを基盤としています。
- 参考スコア(独自算出の注目度): 10.443140057272334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial benchmarks validate model abilities by providing samples that fool models but not humans. However, despite the proliferation of datasets that claim to be adversarial, there does not exist an established metric to evaluate how adversarial these datasets are. To address this lacuna, we introduce ADVSCORE, a metric which quantifies how adversarial and discriminative an adversarial dataset is and exposes the features that make data adversarial. We then use ADVSCORE to underpin a dataset creation pipeline that incentivizes writing a high-quality adversarial dataset. As a proof of concept, we use ADVSCORE to collect an adversarial question answering (QA) dataset, ADVQA, from our pipeline. The high-quality questions in ADVQA surpasses three adversarial benchmarks across domains at fooling several models but not humans. We validate our result based on difficulty estimates from 9,347 human responses on four datasets and predictions from three models. Moreover, ADVSCORE uncovers which adversarial tactics used by human writers fool models (e.g., GPT-4) but not humans. Through ADVSCORE and its analyses, we offer guidance on revealing language model vulnerabilities and producing reliable adversarial examples.
- Abstract(参考訳): 逆ベンチマークは、人間ではなく、愚かなモデルを提供するサンプルを提供することで、モデルの能力を検証する。
しかし、敵対的であると主張するデータセットの急増にもかかわらず、これらのデータセットがどのように敵対的であるかを評価するための確立された指標は存在しない。
このラッカナに対処するために、ADVSCOREという、敵対的・差別的なデータセットがどうあるべきかを定量化し、データを敵対的にする特徴を公開するメトリクスを紹介します。
次に、ADVSCOREを使用して、高品質な逆数データセットを書くインセンティブを与えるデータセット生成パイプラインの基盤を作ります。
概念実証として、私たちはADVSCOREを使用して、パイプラインから敵対的質問応答(QA)データセットADVQAを収集します。
ADVQAの高品質な質問は、複数のモデルを騙すが人間ではないドメイン間での3つの対立ベンチマークを上回っている。
我々は,4つのデータセットに対する9,347人の応答と3つのモデルからの予測の難易度に基づいて,結果を検証する。
さらに、ADVSCOREは、人間の作家が使用する敵の戦術は、モデル(例えば、GPT-4)を騙すが、人間ではないものを明らかにする。
ADVSCOREとその分析を通じて、言語モデルの脆弱性を明らかにし、信頼できる敵の例を生成するためのガイダンスを提供する。
関連論文リスト
- Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Exploring the Physical World Adversarial Robustness of Vehicle Detection [13.588120545886229]
アドリアックは現実世界の検知モデルの堅牢性を損なう可能性がある。
CARLAシミュレータを用いた革新的なインスタントレベルデータ生成パイプラインを提案する。
本研究は, 逆境条件下での多種多様なモデル性能について考察した。
論文 参考訳(メタデータ) (2023-08-07T11:09:12Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - A Unified Evaluation of Textual Backdoor Learning: Frameworks and
Benchmarks [72.7373468905418]
我々は,テキストバックドア学習の実装と評価を促進するオープンソースツールキットOpenBackdoorを開発した。
また,単純なクラスタリングに基づく防御ベースラインであるCUBEを提案する。
論文 参考訳(メタデータ) (2022-06-17T02:29:23Z) - CARLA-GeAR: a Dataset Generator for a Systematic Evaluation of
Adversarial Robustness of Vision Models [61.68061613161187]
本稿では,合成データセットの自動生成ツールであるCARLA-GeARについて述べる。
このツールは、Python APIを使用して、CARLAシミュレータ上に構築されており、自律運転のコンテキストにおいて、いくつかのビジョンタスク用のデータセットを生成することができる。
本稿では,CARLA-GeARで生成されたデータセットが,現実世界の敵防衛のベンチマークとして今後どのように利用されるかを示す。
論文 参考訳(メタデータ) (2022-06-09T09:17:38Z) - DAD: Data-free Adversarial Defense at Test Time [21.741026088202126]
ディープモデルは敵の攻撃に非常に敏感である。
プライバシは、トレーニングデータではなく、トレーニングされたモデルのみへのアクセスを制限する、重要な関心事になっている。
我々は,「訓練データと統計値の欠如によるテスト時敵防衛」という全く新しい問題を提案する。
論文 参考訳(メタデータ) (2022-04-04T15:16:13Z) - Detection of Word Adversarial Examples in Text Classification: Benchmark
and Baseline via Robust Density Estimation [33.46393193123221]
4つのデータセットと4つのモデルで4つの一般的な攻撃方法のデータセットをリリースする。
我々は,30のデータセット-アタックモデルの組み合わせのうち29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
論文 参考訳(メタデータ) (2022-03-03T12:32:59Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。