論文の概要: AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses
- arxiv url: http://arxiv.org/abs/2109.11728v2
- Date: Tue, 28 Sep 2021 17:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-01 11:15:13.659838
- Title: AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses
- Title(参考訳): AESシステムは過度に不安定で過度に敏感な: 防衛の理由と提案を解説
- Authors: Yaman Singla Kumar, Swapnil Parekh, Somesh Singh, Junyi Jessy Li,
Rajiv Ratn Shah, Changyou Chen
- Abstract要約: スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
- 参考スコア(独自算出の注目度): 66.49753193098356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep-learning based Automatic Essay Scoring (AES) systems are being actively
used by states and language testing agencies alike to evaluate millions of
candidates for life-changing decisions ranging from college applications to
visa approvals. However, little research has been put to understand and
interpret the black-box nature of deep-learning based scoring algorithms.
Previous studies indicate that scoring models can be easily fooled. In this
paper, we explore the reason behind their surprising adversarial brittleness.
We utilize recent advances in interpretability to find the extent to which
features such as coherence, content, vocabulary, and relevance are important
for automated scoring mechanisms. We use this to investigate the
oversensitivity i.e., large change in output score with a little change in
input essay content) and overstability i.e., little change in output scores
with large changes in input essay content) of AES. Our results indicate that
autoscoring models, despite getting trained as "end-to-end" models with rich
contextual embeddings such as BERT, behave like bag-of-words models. A few
words determine the essay score without the requirement of any context making
the model largely overstable. This is in stark contrast to recent probing
studies on pre-trained representation learning models, which show that rich
linguistic features such as parts-of-speech and morphology are encoded by them.
Further, we also find that the models have learnt dataset biases, making them
oversensitive. To deal with these issues, we propose detection-based protection
models that can detect oversensitivity and overstability causing samples with
high accuracies. We find that our proposed models are able to detect unusual
attribution patterns and flag adversarial samples successfully.
- Abstract(参考訳): ディープラーニングベースのAutomatic Essay Scoring(AES)システムは、大学アプリケーションからビザ承認まで、数百万の生命変化決定候補を評価するために、州や言語試験機関が積極的に使用している。
しかし、ディープラーニングに基づくスコアリングアルゴリズムのブラックボックスの性質を理解し、解釈する研究はほとんど行われていない。
これまでの研究では、スコアリングモデルは簡単に騙せることが示されている。
本稿では,その驚くべき敵の脆さの原因を考察する。
近年の解釈能力の進歩を活かし,コヒーレンス,内容,語彙,関連性といった特徴が,自動スコアリング機構において重要であることを明らかにする。
本研究では,AESの出力スコアの過敏性(入力エッセイ内容の変化の少ない出力スコア)と過安定性(入力エッセイ内容の変化の少ない出力スコアの過敏性)について検討する。
以上の結果から, BERT などのリッチなコンテキスト埋め込みを備えた "エンドツーエンド" モデルとして訓練されたオートスコーリングモデルは, 単語のバッグ・オブ・ワードモデルのように振る舞うことが示唆された。
若干の言葉でエッセイスコアを決定するが、文脈を必要とせず、モデルは概して過大評価される。
これは、音声の一部や形態といった豊かな言語的特徴がそれらによってコード化されていることを示す、事前訓練された表現学習モデルに関する最近の調査研究とは対照的である。
さらに、モデルがデータセットのバイアスを学習し、過敏になることもわかりました。
これらの問題に対処するため,高精度試料の過敏性と過敏性を検出する検出ベース保護モデルを提案する。
提案モデルでは,異常な帰属パターンを検知し,敵のサンプルをフラグする。
関連論文リスト
- Harnessing the Intrinsic Knowledge of Pretrained Language Models for Challenging Text Classification Settings [5.257719744958367]
この論文は、事前学習された言語モデル(PLM)の本質的な知識を活用することによって、テキスト分類における3つの挑戦的な設定を探求する。
本研究では, PLMの文脈表現に基づく特徴量を利用したモデルを構築し, 人間の精度に匹敵する, あるいは超越する性能を実現する。
最後に、実効的な実演を選択することで、大規模言語モデルの文脈内学習プロンプトに対する感受性に取り組む。
論文 参考訳(メタデータ) (2024-08-28T09:07:30Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Few-shot Instruction Prompts for Pretrained Language Models to Detect
Social Biases [55.45617404586874]
我々は、事前訓練された言語モデル(LM)を誘導する数ショットの命令ベース手法を提案する。
大規模なLMは、微調整モデルとよく似た精度で、異なる種類の細粒度バイアスを検出できることを示す。
論文 参考訳(メタデータ) (2021-12-15T04:19:52Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。