論文の概要: Power in Numbers: Robust reading comprehension by finetuning with four
adversarial sentences per example
- arxiv url: http://arxiv.org/abs/2401.10091v1
- Date: Thu, 18 Jan 2024 15:59:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 15:58:16.825594
- Title: Power in Numbers: Robust reading comprehension by finetuning with four
adversarial sentences per example
- Title(参考訳): 数における力: 例の4つの逆文による微調整によるロバスト読解
- Authors: Ariel Marcus
- Abstract要約: 私は新しいモデルELECTRA-Smallで過去の敵研究を再現します。
私は、SQuAD v1.1トレーニング例のモデルに、文脈段落に付加された1~5つの逆文を微調整します。
このモデルでは、多くの評価データセットでF1スコアが70%以上に達し、複数の追加および事前修正された逆数文がある。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent models have achieved human level performance on the Stanford Question
Answering Dataset when using F1 scores to evaluate the reading comprehension
task. Yet, teaching machines to comprehend text has not been solved in the
general case. By appending one adversarial sentence to the context paragraph,
past research has shown that the F1 scores from reading comprehension models
drop almost in half. In this paper, I replicate past adversarial research with
a new model, ELECTRA-Small, and demonstrate that the new model's F1 score drops
from 83.9% to 29.2%. To improve ELECTRA-Small's resistance to this attack, I
finetune the model on SQuAD v1.1 training examples with one to five adversarial
sentences appended to the context paragraph. Like past research, I find that
the finetuned model on one adversarial sentence does not generalize well across
evaluation datasets. However, when finetuned on four or five adversarial
sentences the model attains an F1 score of more than 70% on most evaluation
datasets with multiple appended and prepended adversarial sentences. The
results suggest that with enough examples we can make models robust to
adversarial attacks.
- Abstract(参考訳): 近年のStanford Question Answering Datasetでは,F1スコアを用いた読解作業の評価において,人間レベルの評価が達成されている。
しかし,テキスト理解のための機械の指導は一般には行われていない。
文脈段落に1つの逆文を付加することにより、過去の研究では、F1が読解モデルから得られるスコアがほぼ半分に低下することを示した。
本稿では,新しいモデルであるELECTRA-Smallを用いて過去の敵研究を再現し,新しいモデルのF1スコアが83.9%から29.2%に低下することを示す。
この攻撃に対するELECTRA-Smallの抵抗性を改善するため、SQuAD v1.1トレーニング例のモデルを、文脈段落に付加された1対5の逆文で微調整する。
過去の研究と同様に、ある逆数文の微調整モデルは、評価データセット間でうまく一般化していないことが分かりました。
しかし、4つまたは5つの逆文を微調整すると、多くの評価データセットにおいて、複数の副詞と前置された逆文で70%以上のf1スコアが得られる。
その結果、十分な例があれば、モデルが敵の攻撃に対して堅牢になることが示唆されます。
関連論文リスト
- Designing Informative Metrics for Few-Shot Example Selection [14.961505860372492]
本稿では,複雑性に基づく逐次タギングタスクのプロンプト選択手法を提案する。
このアプローチは、サンプルの選択専用のモデルのトレーニングを避ける。
文レベルと単語レベルの両方のメトリクスを用いて、例の複雑さと検討中の(テスト)文とを一致させる。
論文 参考訳(メタデータ) (2024-03-06T17:11:38Z) - Enhancing Self-Consistency and Performance of Pre-Trained Language
Models through Natural Language Inference [72.61732440246954]
大規模な事前訓練された言語モデルは、テスト入力間の論理的一貫性を欠いていることが多い。
本研究では,事前学習したNLPモデルの一貫性と精度を高めるためのフレームワークであるConCoRDを提案する。
ConCoRDは、市販のクローズドブックQAおよびVQAモデルの精度と一貫性を一貫して向上することを示す。
論文 参考訳(メタデータ) (2022-11-21T21:58:30Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z) - Adversarial Training for Improving Model Robustness? Look at Both
Prediction and Interpretation [21.594361495948316]
本稿では,FLAT という新しい特徴レベルの対角訓練手法を提案する。
FLATは、グローバルな単語の重要性を学ぶために、変分ワードマスクをニューラルネットワークに組み込んでいる。
FLATが予測と解釈の両方において頑健性を向上させる効果を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-23T20:04:14Z) - Detection of Word Adversarial Examples in Text Classification: Benchmark
and Baseline via Robust Density Estimation [33.46393193123221]
4つのデータセットと4つのモデルで4つの一般的な攻撃方法のデータセットをリリースする。
我々は,30のデータセット-アタックモデルの組み合わせのうち29のAUCが最も高い密度推定に基づく競合ベースラインを提案する。
論文 参考訳(メタデータ) (2022-03-03T12:32:59Z) - FewshotQA: A simple framework for few-shot learning of question
answering tasks using pre-trained text-to-text models [0.0]
現在の最先端の事前訓練モデルでは、良い結果を得るためには、何万ものサンプルを微調整する必要がある。
本稿では,事前学習したテキスト・テキスト・モデルを利用した簡易な微調整フレームワークを提案する。
我々のモデルでは、XLM-Roberta-largeを最大40F1ポイント、平均33F1ポイントで上回ります。
論文 参考訳(メタデータ) (2021-09-04T23:08:57Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - Pretraining with Contrastive Sentence Objectives Improves Discourse
Performance of Language Models [29.40992909208733]
本研究では,会話コヒーレンスと文間距離をモデル化した言語モデルの事前学習のための文間目的であるconPONOを提案する。
談話表現ベンチマークのDiscoEvalでは、これまでの最先端技術よりも最大13%改善しています。
また,言論を明示的に評価しないタスクにおいても,ConPONOは2%~6%の利得が得られることを示した。
論文 参考訳(メタデータ) (2020-05-20T23:21:43Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。