論文の概要: DuReader_robust: A Chinese Dataset Towards Evaluating Robustness and
Generalization of Machine Reading Comprehension in Real-World Applications
- arxiv url: http://arxiv.org/abs/2004.11142v2
- Date: Wed, 21 Jul 2021 11:27:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 09:38:25.986255
- Title: DuReader_robust: A Chinese Dataset Towards Evaluating Robustness and
Generalization of Machine Reading Comprehension in Real-World Applications
- Title(参考訳): dureader_robust: 実世界アプリケーションにおける機械読解の堅牢性と一般化を評価するための中国データセット
- Authors: Hongxuan Tang, Hongyu Li, Jing Liu, Yu Hong, Hua Wu, Haifeng Wang
- Abstract要約: 実際の中国のデータセットであるDuReader_robustを紹介します。
MRCモデルを過感度、過安定性、一般化の3つの側面から評価するように設計されている。
実験の結果, MRCモデルは課題テストセットではうまく動作しないことがわかった。
- 参考スコア(独自算出の注目度): 42.679177131909334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine reading comprehension (MRC) is a crucial task in natural language
processing and has achieved remarkable advancements. However, most of the
neural MRC models are still far from robust and fail to generalize well in
real-world applications. In order to comprehensively verify the robustness and
generalization of MRC models, we introduce a real-world Chinese dataset --
DuReader_robust. It is designed to evaluate the MRC models from three aspects:
over-sensitivity, over-stability and generalization. Comparing to previous
work, the instances in DuReader_robust are natural texts, rather than the
altered unnatural texts. It presents the challenges when applying MRC models to
real-world applications. The experimental results show that MRC models do not
perform well on the challenge test set. Moreover, we analyze the behavior of
existing models on the challenge test set, which may provide suggestions for
future model development. The dataset and codes are publicly available at
https://github.com/baidu/DuReader.
- Abstract(参考訳): 機械読解(MRC)は自然言語処理において重要な課題であり、目覚ましい進歩を遂げている。
しかしながら、ほとんどのニューラルネットワークMCCモデルは、まだ堅牢には程遠いため、現実世界のアプリケーションではうまく一般化できない。
MRCモデルの堅牢性と一般化を包括的に検証するために,実世界の中国語データセットDuReader_robustを導入する。
MRCモデルを過感度、過安定性、一般化の3つの側面から評価するように設計されている。
以前の研究と比較すると、DuReader_robustのインスタンスは、変更された不自然なテキストではなく、自然なテキストである。
MRCモデルを現実世界のアプリケーションに適用する際の課題を示す。
実験の結果, MRCモデルは課題テストセットではうまく動作しないことがわかった。
さらに, 課題テストセットにおける既存モデルの挙動を解析し, 今後のモデル開発への提案を提供する。
データセットとコードはhttps://github.com/baidu/dureaderで公開されている。
関連論文リスト
- Training Sparse Mixture Of Experts Text Embedding Models [0.0]
トランスフォーマーベースのテキスト埋め込みモデルは、パラメータ数を増やすことで、MIRACLやBEIRのようなベンチマークのパフォーマンスを改善した。
このスケーリングアプローチでは、推論レイテンシやメモリ使用量の増加など、デプロイメント上の大きな課題が導入されている。
最初の汎用MoEテキスト埋め込みモデルであるNomic Embed v2を紹介する。
論文 参考訳(メタデータ) (2025-02-11T21:36:31Z) - FaithEval: Can Your Language Model Stay Faithful to Context, Even If "The Moon is Made of Marshmallows" [74.7488607599921]
FaithEvalは、コンテキストシナリオにおける大規模言語モデル(LLM)の忠実度を評価するためのベンチマークである。
FaithEvalは4.9Kの高品質な問題で構成され、厳格な4段階のコンテキスト構築と検証フレームワークを通じて検証されている。
論文 参考訳(メタデータ) (2024-09-30T06:27:53Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming [3.117224133280308]
MRCモデルのエンティティリネームへの堅牢性について検討する。
我々は、国、人、国籍、場所、組織、都市といったタイプのエンティティを改名する。
ベースモデルと比較して、大きなモデルは、新しいエンティティに対して比較的よく機能することがわかった。
論文 参考訳(メタデータ) (2023-04-06T15:29:57Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z) - BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。
実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。
われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文 参考訳(メタデータ) (2022-07-21T20:17:53Z) - An Understanding-Oriented Robust Machine Reading Comprehension Model [12.870425062204035]
本稿では,3種類のロバスト性問題に対処する理解指向機械読解モデルを提案する。
具体的には、入力された質問の正確な意味を理解するために、まず自然言語推論モジュールを使用します。
第3に,一般化の問題に対処する多言語学習機構を提案する。
論文 参考訳(メタデータ) (2022-07-01T03:32:02Z) - Coreference Reasoning in Machine Reading Comprehension [100.75624364257429]
機械読解におけるコレファレンス推論は,従来考えられていたよりも大きな課題である。
本稿では,コア参照推論の課題を反映した理解データセットの読解手法を提案する。
これにより、さまざまなMRCデータセットにまたがる最先端のモデルの推論能力が向上します。
論文 参考訳(メタデータ) (2020-12-31T12:18:41Z) - Benchmarking Robustness of Machine Reading Comprehension Models [29.659586787812106]
我々は,4種類の敵攻撃下でのMRCモデルのロバスト性を評価するためのモデルに依存しない新しいベンチマークAdvRACEを構築した。
最新のSOTA(State-of-the-art)モデルがこれらすべての攻撃に対して脆弱であることを示す。
我々は、より堅牢なMCCモデルを構築する余地があることを結論し、我々のベンチマークはこの分野の進歩を動機づけ、測定するのに役立ちます。
論文 参考訳(メタデータ) (2020-04-29T08:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。