論文の概要: What Can Secondary Predictions Tell Us? An Exploration on
Question-Answering with SQuAD-v2.0
- arxiv url: http://arxiv.org/abs/2206.14348v1
- Date: Wed, 29 Jun 2022 01:17:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 05:12:11.680315
- Title: What Can Secondary Predictions Tell Us? An Exploration on
Question-Answering with SQuAD-v2.0
- Title(参考訳): 二次予測とは何か?
SQuAD-v2.0による質問応答の探索
- Authors: Michael Kamfonas and Gabriel Alon
- Abstract要約: 我々は、例の黄金のランク(GR)を、根拠となる真実と正確に一致する最も自信のある予測のランクとして定義する。
我々が分析した16の変圧器モデルでは、第2の予測空間における正確に一致した黄金の答えの大部分は、最上位に非常に近い位置にある。
GRIM(Golden Rank Interpolated Median)と呼ばれる,テストセット全体の新しい集計統計を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance in natural language processing, and specifically for the
question-answer task, is typically measured by comparing a model\'s most
confident (primary) prediction to golden answers (the ground truth). We are
making the case that it is also useful to quantify how close a model came to
predicting a correct answer even for examples that failed. We define the Golden
Rank (GR) of an example as the rank of its most confident prediction that
exactly matches a ground truth, and show why such a match always exists. For
the 16 transformer models we analyzed, the majority of exactly matched golden
answers in secondary prediction space hover very close to the top rank. We
refer to secondary predictions as those ranking above 0 in descending
confidence probability order. We demonstrate how the GR can be used to classify
questions and visualize their spectrum of difficulty, from persistent near
successes to persistent extreme failures. We derive a new aggregate statistic
over entire test sets, named the Golden Rank Interpolated Median (GRIM) that
quantifies the proximity of failed predictions to the top choice made by the
model. To develop some intuition and explore the applicability of these metrics
we use the Stanford Question Answering Dataset (SQuAD-2) and a few popular
transformer models from the Hugging Face hub. We first demonstrate that the
GRIM is not directly correlated with the F1 and exact match (EM) scores. We
then calculate and visualize these scores for various transformer
architectures, probe their applicability in error analysis by clustering failed
predictions, and compare how they relate to other training diagnostics such as
the EM and F1 scores. We finally suggest various research goals, such as
broadening data collection for these metrics and their possible use in
adversarial training.
- Abstract(参考訳): 自然言語処理、特に質問応答タスクのパフォーマンスは、モデル\の最も自信のある(第一級)予測と黄金の答え(基礎的真実)を比較することで測定される。
私たちは、失敗した例であっても、モデルがどれくらい近いのかを定量化し、正しい答えを予測するのに役立ちます。
我々は、例の黄金のランク(gr)を、基礎的真理と正確に一致する最も自信のある予測のランクと定義し、なぜそのような一致が常に存在するかを示す。
私たちが分析した16のトランスフォーマーモデルでは、二次予測空間のゴールデン回答の大部分は、トップランクに非常に近い位置をホバリングします。
二次予測は、信頼確率の下位順で0より上位に位置するものを指す。
我々は、GRがいかにして質問を分類し、その難易度の範囲を可視化するのに使えるかを実証する。
実験セット全体に対する新しい集計統計値(golden rank interpolated median (grim) と呼ばれる)を導出し、モデルによってなされる最上位の選択に失敗した予測の近さを定量化する。
直感を発達させ、これらのメトリクスの適用性を探るため、SQuAD-2(Stanford Question Answering Dataset)とHugging Faceハブからの人気のトランスフォーマーモデルを使用します。
まず,GRIMがF1とEMスコアと直接相関していないことを示す。
次に、様々なトランスフォーマーアーキテクチャのスコアを計算・可視化し、失敗予測のクラスタリングによるエラー解析への適用性を調査し、emやf1スコアなどの他のトレーニング診断とどのように関係しているかを比較した。
最後に、これらのメトリクスのデータ収集の拡大や、敵のトレーニングでの利用の可能性など、さまざまな研究目標を提案します。
関連論文リスト
- Correct after Answer: Enhancing Multi-Span Question Answering with Post-Processing Method [11.794628063040108]
マルチスパン質問回答(Multi-Span Question Answering、MSQA)は、ある質問に答えるために、与えられたコンテキストから1つまたは複数の回答スパンを抽出するモデルを必要とする。
本稿では,不正確な予測処理に後処理戦略を用いるAnswering-Classifying-Correcting(ACC)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-22T08:04:32Z) - When to Accept Automated Predictions and When to Defer to Human Judgment? [1.9922905420195367]
我々は、トレーニングされたニューラルネットワークの出力がどのように変化するかをクラスタリングを用いて分析し、出力とクラスセントロイド間の距離を測定する。
本稿では,分布変化による予測の信頼度を評価する指標として,この距離を提案する。
論文 参考訳(メタデータ) (2024-07-10T16:45:52Z) - Unsupervised Dense Retrieval with Relevance-Aware Contrastive
Pre-Training [81.3781338418574]
関連性を考慮したコントラスト学習を提案する。
我々は、BEIRおよびオープンドメインQA検索ベンチマークにおいて、SOTAアン教師なしコントリバーモデルを一貫して改善する。
本手法は, 目標コーパスの事前訓練後, BM25に打ち勝つだけでなく, 優れた数発学習者として機能する。
論文 参考訳(メタデータ) (2023-06-05T18:20:27Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - VisFIS: Visual Feature Importance Supervision with
Right-for-the-Right-Reason Objectives [84.48039784446166]
モデルFI監督は、VQAモデルの精度と、Right-to-the-Right-Reasonメトリクスの性能を有意義に向上させることができることを示す。
我々の最高のパフォーマンス手法であるVisual Feature Importance Supervision (VisFIS)は、ベンチマークVQAデータセットで強いベースラインを上回ります。
説明が妥当で忠実な場合には予測がより正確になる。
論文 参考訳(メタデータ) (2022-06-22T17:02:01Z) - Social-Implicit: Rethinking Trajectory Prediction Evaluation and The
Effectiveness of Implicit Maximum Likelihood Estimation [21.643073517681973]
平均マハラノビス距離(英: Average Mahalanobis Distance、AMD)は、生成したサンプルがどれだけ近いかを測定する計量である。
平均最大固有値(英: Average Maximum Eigenvalue、AMV)は、予測の全体的拡散を定量化する計量である。
本稿では,従来の生成モデルに代えてImplicit Maximum Likelihood Estimation (IMLE)を導入し,そのモデルであるSocial-Implicitを学習する。
論文 参考訳(メタデータ) (2022-03-06T21:28:40Z) - COM2SENSE: A Commonsense Reasoning Benchmark with Complementary
Sentences [21.11065466376105]
常識推論は人間にとって直感的であるが、人工知能(AI)の長期的な課題である。
事前訓練された言語モデルの最近の進歩は、いくつかのCommonsenseベンチマークデータセットで有望な結果を示している。
本稿では,自然言語真偽文からなる新しいコモンセンス推論ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:31:55Z) - How Can We Know When Language Models Know? On the Calibration of
Language Models for Question Answering [80.82194311274694]
言語モデルがいつ、自信を持って、特定のクエリに対する答えを知っているか、どのように知ることができるか?
我々は,T5,BART,GPT-2の3つの強力な生成モデルを検討した。
次に、そのようなモデルの校正方法を検討し、その信頼性スコアを正しさの確率と相関させる。
論文 参考訳(メタデータ) (2020-12-02T03:53:13Z) - Ambiguity in Sequential Data: Predicting Uncertain Futures with
Recurrent Models [110.82452096672182]
逐次データによる曖昧な予測を扱うために,Multiple hypothesis Prediction(MHP)モデルの拡張を提案する。
また、不確実性を考慮するのに適した曖昧な問題に対する新しい尺度も導入する。
論文 参考訳(メタデータ) (2020-03-10T09:15:42Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。