論文の概要: My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism
- arxiv url: http://arxiv.org/abs/2012.13872v1
- Date: Sun, 27 Dec 2020 06:19:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 20:15:36.743771
- Title: My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism
- Title(参考訳): 私の先生は世界は平らだと思っている!
自動エッセイスコアリング機構の解釈
- Authors: Swapnil Parekh, Yaman Kumar Singla, Changyou Chen, Junyi Jessy Li,
Rajiv Ratn Shah
- Abstract要約: 最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
- 参考スコア(独自算出の注目度): 71.34160809068996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Significant progress has been made in deep-learning based Automatic Essay
Scoring (AES) systems in the past two decades. However, little research has
been put to understand and interpret the black-box nature of these
deep-learning based scoring models. Recent work shows that automated scoring
systems are prone to even common-sense adversarial samples. Their lack of
natural language understanding capability raises questions on the models being
actively used by millions of candidates for life-changing decisions. With
scoring being a highly multi-modal task, it becomes imperative for scoring
models to be validated and tested on all these modalities. We utilize recent
advances in interpretability to find the extent to which features such as
coherence, content and relevance are important for automated scoring mechanisms
and why they are susceptible to adversarial samples. We find that the systems
tested consider essays not as a piece of prose having the characteristics of
natural flow of speech and grammatical structure, but as `word-soups' where a
few words are much more important than the other words. Removing the context
surrounding those few important words causes the prose to lose the flow of
speech and grammar, however has little impact on the predicted score. We also
find that since the models are not semantically grounded with world-knowledge
and common sense, adding false facts such as ``the world is flat'' actually
increases the score instead of decreasing it.
- Abstract(参考訳): 過去20年間で、ディープラーニングに基づく自動評価(AES)システムにおいて重要な進展が見られた。
しかし、これらの深層学習に基づくスコアリングモデルのブラックボックスの性質を理解し、解釈する研究はほとんど行われていない。
最近の研究により、自動採点システムは、常識的な逆さまのサンプルでさえも起こりやすいことが示されている。
自然言語理解能力の欠如は、数百万の候補が人生を変える決定のために積極的に使用しているモデルに関する疑問を引き起こす。
スコアリングは高度にマルチモーダルなタスクであるため、これらのモダリティをすべて検証しテストする上では、スコアリングモデルが必須となる。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴が,自動スコアリング機構において重要か,また,なぜ逆行的なサンプルに影響を受けやすいかを見出す。
テストされたシステムでは、エッセイは自然言語の流れや文法構造の特徴を持つ散文としてではなく、数単語が他の単語よりも重要となる「単語ソップ」として見なされている。
これらの重要な単語を取り巻く文脈を除去すると、散文は音声と文法の流れを失うが、予測されたスコアにはほとんど影響を与えない。
また,「世界は平らである」といった虚偽の事実を付加することで,意味論的に世界知識や常識に根ざしたものではないことが判明した。
関連論文リスト
- DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - Testing AI on language comprehension tasks reveals insensitivity to underlying meaning [3.335047764053173]
LLM(Large Language Models)は、臨床支援や法的支援から、質問応答や教育まで幅広い分野で採用されている。
しかし、リバースエンジニアリングはモラベックのパラドックスによって拘束されており、簡単なスキルは難しい。
新たなベンチマークで7つの最先端モデルを体系的に評価する。
論文 参考訳(メタデータ) (2023-02-23T20:18:52Z) - A Linguistic Investigation of Machine Learning based Contradiction
Detection Models: An Empirical Analysis and Future Perspectives [0.34998703934432673]
本稿では,2つの自然言語推論データセットについて,その言語的特徴について分析する。
目標は、特に機械学習モデルを理解するのが難しい、構文的および意味的特性を特定することである。
論文 参考訳(メタデータ) (2022-10-19T10:06:03Z) - Saliency Map Verbalization: Comparing Feature Importance Representations
from Model-free and Instruction-based Methods [6.018950511093273]
サージェンシマップは、重要な入力特徴を特定することによって、ニューラルネットワークの予測を説明することができる。
我々は,サリエンシマップを自然言語に翻訳する未調査課題を定式化する。
本研究では,従来の特徴強調表現と比較した2つの新手法(検索ベースおよび命令ベース言語化)を比較した。
論文 参考訳(メタデータ) (2022-10-13T17:48:15Z) - Explainable Verbal Deception Detection using Transformers [1.5104201344012347]
本稿では,BERT(およびRoBERTa),マルチヘッドアテンション,コアテンション,トランスフォーマーの組み合わせを含む6つのディープラーニングモデルを提案し,評価する。
この結果から,我々のトランスを用いたモデルでは,自動偽造検出性能(精度+2.11%)が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-06T17:36:00Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。