論文の概要: Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming
- arxiv url: http://arxiv.org/abs/2304.03145v2
- Date: Tue, 16 Apr 2024 18:04:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:59:47.998332
- Title: Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming
- Title(参考訳): 低リソースエンティティリネームに対する機械読解モデルのロバスト性評価
- Authors: Clemencia Siro, Tunde Oluwaseyi Ajayi,
- Abstract要約: MRCモデルのエンティティリネームへの堅牢性について検討する。
我々は、国、人、国籍、場所、組織、都市といったタイプのエンティティを改名する。
ベースモデルと比較して、大きなモデルは、新しいエンティティに対して比較的よく機能することがわかった。
- 参考スコア(独自算出の注目度): 3.117224133280308
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Question answering (QA) models have shown compelling results in the task of Machine Reading Comprehension (MRC). Recently these systems have proved to perform better than humans on held-out test sets of datasets e.g. SQuAD, but their robustness is not guaranteed. The QA model's brittleness is exposed when evaluated on adversarial generated examples by a performance drop. In this study, we explore the robustness of MRC models to entity renaming, with entities from low-resource regions such as Africa. We propose EntSwap, a method for test-time perturbations, to create a test set whose entities have been renamed. In particular, we rename entities of type: country, person, nationality, location, organization, and city, to create AfriSQuAD2. Using the perturbed test set, we evaluate the robustness of three popular MRC models. We find that compared to base models, large models perform well comparatively on novel entities. Furthermore, our analysis indicates that entity type person highly challenges the MRC models' performance.
- Abstract(参考訳): 質問応答(QA)モデルは、Machine Reading Comprehension(MRC)タスクにおいて魅力的な結果を示している。
近年、これらのシステムは、例えばSQuADのようなデータセットの保持されたテストセットにおいて、人間よりも優れた性能を示すことが証明されているが、その堅牢性は保証されていない。
QAモデルの脆さは、性能低下による逆生成例で評価すると明らかになる。
本研究では, アフリカなどの低資源地域からのエンティティを用いて, MRCモデルからエンティティリネームへのロバスト性について検討する。
本稿では、テスト時間摂動の手法であるEntSwapを提案し、エンティティが改名されたテストセットを作成する。
特に、国、人、国籍、場所、組織、都市を名称変更し、AfriSQuAD2を作成します。
摂動テストセットを用いて,3つのMRCモデルのロバスト性を評価する。
ベースモデルと比較して、大きなモデルは、新しいエンティティに対して比較的よく機能することがわかった。
さらに,本分析の結果から,MRCモデルの性能に高い課題があることが示された。
関連論文リスト
- A Novel Metric for Measuring the Robustness of Large Language Models in Non-adversarial Scenarios [5.617202699068449]
複数のデータセット上で複数の大規模言語モデルのロバスト性を評価する。
ベンチマークデータセットは、自然に保存され、重複しない摂動を導入することで構築される。
論文 参考訳(メタデータ) (2024-08-04T08:43:09Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - On the Robustness of Reading Comprehension Models to Entity Renaming [44.11484801074727]
本稿では,機械読影理解モデル(MRC)のエンティティ・リネームに対する堅牢性について検討する。
そこで本稿では,人物名をさまざまなソースから名前に置き換える,汎用的でスケーラブルな手法を提案する。
エンティティが改名された場合、MCCモデルは一貫して悪化する。
論文 参考訳(メタデータ) (2021-10-16T11:46:32Z) - RockNER: A Simple Method to Create Adversarial Examples for Evaluating
the Robustness of Named Entity Recognition Models [32.806292167848156]
名前付きエンティティ認識モデルのロバスト性を評価するためにRockNERを提案する。
ターゲットエンティティを、Wikidataの同じセマンティッククラスの他のエンティティに置き換える。
文脈レベルでは、事前訓練された言語モデルを用いて単語置換を生成する。
論文 参考訳(メタデータ) (2021-09-12T21:30:21Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z) - Benchmarking Robustness of Machine Reading Comprehension Models [29.659586787812106]
我々は,4種類の敵攻撃下でのMRCモデルのロバスト性を評価するためのモデルに依存しない新しいベンチマークAdvRACEを構築した。
最新のSOTA(State-of-the-art)モデルがこれらすべての攻撃に対して脆弱であることを示す。
我々は、より堅牢なMCCモデルを構築する余地があることを結論し、我々のベンチマークはこの分野の進歩を動機づけ、測定するのに役立ちます。
論文 参考訳(メタデータ) (2020-04-29T08:05:32Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。