論文の概要: Commonsense knowledge adversarial dataset that challenges ELECTRA
- arxiv url: http://arxiv.org/abs/2010.13049v1
- Date: Sun, 25 Oct 2020 07:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 04:40:42.172371
- Title: Commonsense knowledge adversarial dataset that challenges ELECTRA
- Title(参考訳): ELECTRAに挑戦するコモンセンス知識敵データセット
- Authors: Gongqi Lin, Yuan Miao, Xiaoyong Yang, Wenwu Ou, Lizhen Cui, Wei Guo,
Chunyan Miao
- Abstract要約: 本稿では,コモンセンス知識の処理における機械理解モデルの能力について検討する。
QADSは、同義語の常識知識を適用してSQuAD 2.0に基づく質問である。
トップパフォーマンスのNLPモデルでさえ、コモンセンスの知識を扱う能力がほとんどないことを示す。
- 参考スコア(独自算出の注目度): 55.91132518240349
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Commonsense knowledge is critical in human reading comprehension. While
machine comprehension has made significant progress in recent years, the
ability in handling commonsense knowledge remains limited. Synonyms are one of
the most widely used commonsense knowledge. Constructing adversarial dataset is
an important approach to find weak points of machine comprehension models and
support the design of solutions. To investigate machine comprehension models'
ability in handling the commonsense knowledge, we created a Question and Answer
Dataset with common knowledge of Synonyms (QADS). QADS are questions generated
based on SQuAD 2.0 by applying commonsense knowledge of synonyms. The synonyms
are extracted from WordNet. Words often have multiple meanings and synonyms. We
used an enhanced Lesk algorithm to perform word sense disambiguation to
identify synonyms for the context. ELECTRA achieves the state-of-art result on
the SQuAD 2.0 dataset in 2019. With scale, ELECTRA can achieve similar
performance as BERT does. However, QADS shows that ELECTRA has little ability
to handle commonsense knowledge of synonyms. In our experiment, ELECTRA-small
can achieve 70% accuracy on SQuAD 2.0, but only 20% on QADS. ELECTRA-large did
not perform much better. Its accuracy on SQuAD 2.0 is 88% but dropped
significantly to 26% on QADS. In our earlier experiments, BERT, although also
failed badly on QADS, was not as bad as ELECTRA. The result shows that even
top-performing NLP models have little ability to handle commonsense knowledge
which is essential in reading comprehension.
- Abstract(参考訳): 常識知識は人間の読解において重要である。
近年,機械理解は大きな進歩を遂げているが,コモンセンス知識を扱う能力は依然として限られている。
同義語は最も広く使われているコモンセンスの知識の1つである。
敵対的データセットの構築は、マシン理解モデルの弱点を見つけ、ソリューションの設計を支援する重要なアプローチである。
共通知識を扱うための機械理解モデルの能力を調べるため,同義語(QADS)の共通知識を用いた質問・回答データセットを作成した。
QADSは、同義語の常識知識を適用してSQuAD 2.0に基づく質問である。
同義語はWordNetから抽出される。
単語はしばしば複数の意味と同義語を持つ。
拡張されたleskアルゴリズムを用いて単語認識の曖昧さを解消し,文脈の同義語を同定した。
ELECTRAは2019年のSQuAD 2.0データセットで最先端の結果を達成する。
スケールでは、ELECTRAはBERTと同様のパフォーマンスを達成できる。
しかし、QADSはELECTRAが同義語の常識知識を扱う能力がほとんどないことを示している。
実験では, ELECTRA-small は SQuAD 2.0 では70% の精度が得られたが, QADS では 20% しか得られなかった。
ELECTRA-largeは性能が良くなかった。
SQuAD 2.0の精度は88%だが、QADSでは26%に大幅に低下した。
初期の実験では、bertもqadで失敗していたが、electraほど悪くはなかった。
その結果、トップパフォーマンスのNLPモデルでさえ、理解を読む上で不可欠なコモンセンス知識を扱う能力がほとんどないことがわかった。
関連論文リスト
- What Really is Commonsense Knowledge? [58.5342212738895]
我々は、既存のコモンセンス知識の定義を調査し、概念を定義するための3つのフレームワークに基礎を置き、それらをコモンセンス知識の統一的な定義に統合する。
次に、アノテーションと実験のための統合された定義をCommonsenseQAとCommonsenseQA 2.0データセットで使用します。
本研究は,2つのデータセットには非常識知識のインスタンスが多数存在し,これら2つのサブセットに対して大きな性能差があることを示す。
論文 参考訳(メタデータ) (2024-11-06T14:54:19Z) - Crowd Intelligence for Early Misinformation Prediction on Social Media [29.494819549803772]
本稿では,クラウドインテリジェンスに基づく早期誤報予測手法であるCROWDSHIELDを紹介する。
私たちは2つの次元(スタンスとクレーム)を捉えるためにQラーニングを採用しています。
我々は手動で誤情報検出を行うTwitterコーパスであるMISTを提案する。
論文 参考訳(メタデータ) (2024-08-08T13:45:23Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - Distinguish Before Answer: Generating Contrastive Explanation as
Knowledge for Commonsense Question Answering [61.53454387743701]
本稿では,概念中心のPrompt-bAsed Contrastive Explanation GenerationモデルであるCPACEを提案する。
CPACEは、得られたシンボル知識を、与えられた候補間の差異をよりよく区別するために、対照的な説明に変換する。
本稿では,CSQA,QASC,OBQAの3つの質問回答データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-05-14T12:12:24Z) - ComFact: A Benchmark for Linking Contextual Commonsense Knowledge [31.19689856957576]
そこで我々は,KGから状況に関連のあるコモンセンス知識を特定するために,モデルにコンテキストを付与し,訓練を行う,コモンセンス事実リンクの新しい課題を提案する。
われわれの新しいベンチマークであるComFactは、4つのスタイリスティックな多様なデータセットにまたがるコモンセンスのための293kのインコンテキスト関連アノテーションを含んでいる。
論文 参考訳(メタデータ) (2022-10-23T09:30:39Z) - CIKQA: Learning Commonsense Inference with a Unified
Knowledge-in-the-loop QA Paradigm [120.98789964518562]
我々は,コモンセンス知識の大規模化により,すべてのコモンセンスをカバーできるような,各タスクに十分なトレーニングセットをアノテートすることは不可能である,と論じる。
モデルのコモンセンス推論能力について,2つの観点から検討する。
我々は、このベンチマークを知識-イン-ループ質問回答(CIKQA)を用いたCommonsense Inferenceと命名した。
論文 参考訳(メタデータ) (2022-10-12T14:32:39Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - Continuous Learning in Neural Machine Translation using Bilingual
Dictionaries [14.058642647656301]
ニューラルマシン翻訳の新たなフレーズを継続的に学習する能力を評価するための評価フレームワークを提案する。
両方の課題に対処することで、新しいまれな単語やフレーズを30%から70%に翻訳する能力を改善することができます。
論文 参考訳(メタデータ) (2021-02-12T14:46:13Z) - Connecting the Dots: A Knowledgeable Path Generator for Commonsense
Question Answering [50.72473345911147]
本稿では、一般的な共通センスQAフレームワークを、知識のあるパスジェネレータで拡張する。
KGの既存のパスを最先端の言語モデルで外挿することで、ジェネレータはテキスト内のエンティティのペアを動的で、潜在的に新しいマルチホップリレーショナルパスに接続することを学びます。
論文 参考訳(メタデータ) (2020-05-02T03:53:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。