論文の概要: The Impacts of Unanswerable Questions on the Robustness of Machine
Reading Comprehension Models
- arxiv url: http://arxiv.org/abs/2302.00094v1
- Date: Tue, 31 Jan 2023 20:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 18:29:23.842855
- Title: The Impacts of Unanswerable Questions on the Robustness of Machine
Reading Comprehension Models
- Title(参考訳): 機械読解モデルのロバスト性に及ぼす解答不能質問の影響
- Authors: Son Quoc Tran, Phong Nguyen-Thuan Do, Uyen Le, Matt Kretchmar
- Abstract要約: SQuAD 1.1 または SQuAD 2.0 の3つの最先端言語モデルを微調整し、敵攻撃下でそれらの堅牢性を評価する。
実験の結果、SQuAD 2.0で微調整された現在のモデルでは、SQuAD 1.1で微調整されたモデルほど、当初は堅牢でないことが判明した。
さらに、SQuAD 2.0で微調整されたモデルのロバスト性は、追加のドメイン外のデータセットにまで拡張されている。
- 参考スコア(独自算出の注目度): 0.20646127669654826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models have achieved super-human performances on many
Machine Reading Comprehension (MRC) benchmarks. Nevertheless, their relative
inability to defend against adversarial attacks has spurred skepticism about
their natural language understanding. In this paper, we ask whether training
with unanswerable questions in SQuAD 2.0 can help improve the robustness of MRC
models against adversarial attacks. To explore that question, we fine-tune
three state-of-the-art language models on either SQuAD 1.1 or SQuAD 2.0 and
then evaluate their robustness under adversarial attacks. Our experiments
reveal that current models fine-tuned on SQuAD 2.0 do not initially appear to
be any more robust than ones fine-tuned on SQuAD 1.1, yet they reveal a measure
of hidden robustness that can be leveraged to realize actual performance gains.
Furthermore, we find that the robustness of models fine-tuned on SQuAD 2.0
extends to additional out-of-domain datasets. Finally, we introduce a new
adversarial attack to reveal artifacts of SQuAD 2.0 that current MRC models are
learning.
- Abstract(参考訳): 事前訓練された言語モデルは、多くのMachine Reading Comprehension (MRC)ベンチマークで超人的な性能を達成した。
それでも、敵の攻撃に対して相対的に防御できないことで、彼らの自然言語理解に対する懐疑論が引き起こされた。
本稿では,SQuAD 2.0における疑わしい質問に対するトレーニングが,敵攻撃に対するMRCモデルの堅牢性向上に役立つかどうかを問う。
そこで我々は,SQuAD 1.1 または SQuAD 2.0 の3つの最先端言語モデルを微調整し,その堅牢性を評価する。
実験の結果,SQuAD 2.0で微調整された現在のモデルでは,SQuAD 1.1で微調整されたモデルに比べて,当初はそれ以上頑健ではないことがわかった。
さらに、SQuAD 2.0で微調整されたモデルの堅牢性は、追加のドメイン外のデータセットにまで拡張されている。
最後に、現在のMRCモデルが学習しているSQuAD 2.0のアーティファクトを明らかにするために、新たな敵攻撃を導入する。
関連論文リスト
- Towards Robust Extractive Question Answering Models: Rethinking the Training Methodology [0.34530027457862006]
従来の研究によると、既存のモデルは、答えがつかない質問を含むEQAデータセットでトレーニングされた場合、ロバスト性の著しい欠如を示している。
提案手法は,EQA問題に対する新たな損失関数を含み,多数のEQAデータセットに存在する暗黙の仮定に挑戦する。
本モデルでは,2種類の敵攻撃に対するロバスト性が有意に向上し,デフォルトモデルに比べて性能は3分の1程度低下した。
論文 参考訳(メタデータ) (2024-09-29T20:35:57Z) - Precisely the Point: Adversarial Augmentations for Faithful and
Informative Text Generation [45.37475848753975]
本稿では,事前学習したSeq2Seqモデルのロバスト性に関する最初の定量的解析を行う。
現状のSOTA事前学習Seq2Seqモデル(BART)でさえもまだ脆弱であり,テキスト生成タスクに対する忠実度と情報伝達性に大きな劣化をもたらすことが判明した。
本稿では,Seq2Seqモデルの忠実さと情報提供性を改善するために,AdvSeqという新たな逆拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-22T06:38:28Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - RobustART: Benchmarking Robustness on Architecture Design and Training
Techniques [170.3297213957074]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。
アーキテクチャ設計とトレーニングのテクニックが堅牢性にどのように影響するかに関する包括的な研究はない。
本稿では,ImageNet上での包括性調査ベンチマークを提案する。
論文 参考訳(メタデータ) (2021-09-11T08:01:14Z) - When to Fold'em: How to answer Unanswerable questions [5.586191108738563]
SQuAD2.0データセットで学習した3種類の質問応答モデルを提案する。
我々は,SQuAD2.0 F1の2%点改善を訓練時間短縮で達成できる新しいアプローチを開発した。
論文 参考訳(メタデータ) (2021-05-01T19:08:40Z) - RobustBench: a standardized adversarial robustness benchmark [84.50044645539305]
ロバストネスのベンチマークにおける主な課題は、その評価がしばしばエラーを起こし、ロバストネス過大評価につながることである。
我々は,白箱攻撃と黒箱攻撃のアンサンブルであるAutoAttackを用いて,敵対的ロバスト性を評価する。
分散シフト,キャリブレーション,アウト・オブ・ディストリビューション検出,フェアネス,プライバシリーク,スムースネス,転送性に対するロバスト性の影響を解析した。
論文 参考訳(メタデータ) (2020-10-19T17:06:18Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - Benchmarking Robustness of Machine Reading Comprehension Models [29.659586787812106]
我々は,4種類の敵攻撃下でのMRCモデルのロバスト性を評価するためのモデルに依存しない新しいベンチマークAdvRACEを構築した。
最新のSOTA(State-of-the-art)モデルがこれらすべての攻撃に対して脆弱であることを示す。
我々は、より堅牢なMCCモデルを構築する余地があることを結論し、我々のベンチマークはこの分野の進歩を動機づけ、測定するのに役立ちます。
論文 参考訳(メタデータ) (2020-04-29T08:05:32Z) - RAB: Provable Robustness Against Backdoor Attacks [20.702977915926787]
我々は、一般的な脅威モデル、特にバックドアアタックに対して、機械学習モデルの堅牢性を証明することに重点を置いている。
トレーニングモデルをスムースにし,バックドア攻撃に対する堅牢性を証明するための,最初の堅牢なトレーニングプロセスであるRABを提案する。
我々は、さまざまな機械学習(ML)モデルに対する包括的な実験を行い、バックドア攻撃に対する信頼性の高い堅牢性を示す最初のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-03-19T17:05:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。