論文の概要: The Effect of Natural Distribution Shift on Question Answering Models
- arxiv url: http://arxiv.org/abs/2004.14444v1
- Date: Wed, 29 Apr 2020 19:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 10:06:18.320727
- Title: The Effect of Natural Distribution Shift on Question Answering Models
- Title(参考訳): 自然分布シフトが質問応答モデルに及ぼす影響
- Authors: John Miller, Karl Krauth, Benjamin Recht, Ludwig Schmidt
- Abstract要約: スタンフォード質問回答データセット(SQuAD)のための4つの新しいテストセットを構築した。
我々は,質問応答システムの新たなデータへの一般化能力を評価する。
- 参考スコア(独自算出の注目度): 38.124695117116936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We build four new test sets for the Stanford Question Answering Dataset
(SQuAD) and evaluate the ability of question-answering systems to generalize to
new data. Our first test set is from the original Wikipedia domain and measures
the extent to which existing systems overfit the original test set. Despite
several years of heavy test set re-use, we find no evidence of adaptive
overfitting. The remaining three test sets are constructed from New York Times
articles, Reddit posts, and Amazon product reviews and measure robustness to
natural distribution shifts. Across a broad range of models, we observe average
performance drops of 3.8, 14.0, and 17.4 F1 points, respectively. In contrast,
a strong human baseline matches or exceeds the performance of SQuAD models on
the original domain and exhibits little to no drop in new domains. Taken
together, our results confirm the surprising resilience of the holdout method
and emphasize the need to move towards evaluation metrics that incorporate
robustness to natural distribution shifts.
- Abstract(参考訳): 我々はSQuAD(Stanford Question Answering Dataset)のための4つの新しいテストセットを構築し、質問応答システムによる新しいデータへの一般化能力を評価する。
最初のテストセットはオリジナルのwikipediaドメインからで、既存のシステムが元のテストセットにオーバーフィットする程度を測定します。
数年にわたるテストセットの再使用にもかかわらず、適応的なオーバーフィットの証拠は見つからない。
残りの3つのテストセットは、New York Timesの記事、Redditの投稿、Amazonの製品レビューから構築され、自然分布シフトに対する堅牢性を測定する。
幅広いモデルにおいて,平均的な性能低下は3.8点,14.0点,17.4点であった。
対照的に、強い人間のベースラインは、元のドメイン上でSQuADモデルのパフォーマンスと一致し、新しいドメインがほとんど、あるいは全く低下しない。
その結果,本手法の驚くべきレジリエンスを確認し,自然分布シフトに頑健さを取り入れた評価指標への移行の必要性を強調した。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Can You Rely on Your Model Evaluation? Improving Model Evaluation with
Synthetic Test Data [75.20035991513564]
本稿では,モデル評価を容易にする深層生成モデリングフレームワークである3Sテストを紹介する。
私たちの実験では、3Sテストが従来のベースラインより優れていることが示されています。
これらの結果は、限られた実テストデータから合成テストデータへのパラダイムシフトが必要かどうかという問題を提起する。
論文 参考訳(メタデータ) (2023-10-25T10:18:44Z) - CLIFT: Analysing Natural Distribution Shift on Question Answering Models
in Clinical Domain [0.0]
本稿では,臨床領域質問応答タスクのための新しいテストベッドCLIFT(Clinical Shift)を提案する。
テストベッドには、多様な信頼性のあるベンチマークを提供するために7.5kの高品質な質問応答サンプルが含まれている。
論文 参考訳(メタデータ) (2023-10-19T20:43:11Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - To Adapt or to Annotate: Challenges and Interventions for Domain
Adaptation in Open-Domain Question Answering [46.403929561360485]
オープンドメイン質問応答(ODQA)のエンドツーエンドモデルの性能について検討する。
モデルが一般化に失敗するだけでなく、高い検索スコアが解答予測の精度を低下させることもしばしばある。
終末回答F1のスコアを最大24ポイント改善するいくつかの介入手法を提案し,評価する。
論文 参考訳(メタデータ) (2022-12-20T16:06:09Z) - TeST: Test-time Self-Training under Distribution Shift [99.68465267994783]
Test-Time Self-Training (TeST)は、あるソースデータとテスト時の新しいデータ分散に基づいてトレーニングされたモデルを入力する技術である。
また,TeSTを用いたモデルでは,ベースラインテスト時間適応アルゴリズムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2022-09-23T07:47:33Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。