論文の概要: Semantic Answer Similarity for Evaluating Question Answering Models
- arxiv url: http://arxiv.org/abs/2108.06130v1
- Date: Fri, 13 Aug 2021 09:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-16 18:03:42.183268
- Title: Semantic Answer Similarity for Evaluating Question Answering Models
- Title(参考訳): 質問応答モデル評価のための意味的回答類似性
- Authors: Julian Risch and Timo M\"oller and Julian Gutsch and Malte Pietsch
- Abstract要約: SASは、意味応答の類似度を推定するためのクロスエンコーダベースの計量である。
近年の変圧器モデルに基づく意味的類似度指標は,従来の語彙的類似度指標よりも人間の判断とよく相関していることを示す。
- 参考スコア(独自算出の注目度): 2.279676596857721
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The evaluation of question answering models compares ground-truth annotations
with model predictions. However, as of today, this comparison is mostly
lexical-based and therefore misses out on answers that have no lexical overlap
but are still semantically similar, thus treating correct answers as false.
This underestimation of the true performance of models hinders user acceptance
in applications and complicates a fair comparison of different models.
Therefore, there is a need for an evaluation metric that is based on semantics
instead of pure string similarity. In this short paper, we present SAS, a
cross-encoder-based metric for the estimation of semantic answer similarity,
and compare it to seven existing metrics. To this end, we create an English and
a German three-way annotated evaluation dataset containing pairs of answers
along with human judgment of their semantic similarity, which we release along
with an implementation of the SAS metric and the experiments. We find that
semantic similarity metrics based on recent transformer models correlate much
better with human judgment than traditional lexical similarity metrics on our
two newly created datasets and one dataset from related work.
- Abstract(参考訳): 質問応答モデルの評価は、基底アノテーションとモデル予測を比較する。
しかし、今日では、この比較は概ね語彙に基づくものであり、語彙的重複を持たないが意味論的に類似している答えを見逃し、正しい答えを偽として扱う。
このモデルの性能の過小評価は、アプリケーションのユーザの受け入れを妨げ、異なるモデルの公正な比較を複雑にする。
したがって、純粋な文字列の類似性の代わりに意味論に基づく評価指標が必要である。
本稿では,意味的回答の類似度を推定するためのクロスエンコーダベースのメトリクスであるSASについて,既存の7つの指標と比較する。
そこで本研究では,2対の回答を含む英語とドイツ語の3方向アノテート評価データセットと,その意味的類似性に関する人間の判断を作成し,sasメトリクスと実験の実装とともに公開する。
最近のトランスフォーマーモデルに基づく意味的類似度指標は、新たに作成した2つのデータセットと関連する作業からの1つのデータセットの従来の語彙的類似度指標よりも、人間の判断と非常によく相関している。
関連論文リスト
- Data Similarity is Not Enough to Explain Language Model Performance [6.364065652816667]
類似度は言語モデルの性能と相関する。
類似度指標は正確性や相互に相関しない。
これは、事前学習データと下流タスクの関係が、しばしば想定されるよりも複雑であることを示している。
論文 参考訳(メタデータ) (2023-11-15T14:48:08Z) - Semantic similarity prediction is better than other semantic similarity
measures [5.176134438571082]
意味的類似度を測ることのみに関心がある場合、そのようなタスクのために微調整されたモデルを用いて、その類似度を直接予測する方がよいと論じる。
GLUEベンチマークから得られたセマンティックテキスト類似性ベンチマークタスク(STS-B)の微調整モデルを用いて、STSScoreアプローチを定義し、その結果の類似性は他の手法よりも堅牢なセマンティック類似性尺度に対する期待に合致していることを示す。
論文 参考訳(メタデータ) (2023-09-22T08:11:01Z) - Counting Like Human: Anthropoid Crowd Counting on Modeling the
Similarity of Objects [92.80955339180119]
メインストリームの群衆計数法は 密度マップを補強して 計数結果を得るために統合する。
これに触発された我々は,合理的かつ人為的な集団カウントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-02T07:00:53Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Evaluation of Semantic Answer Similarity Metrics [0.0]
そこで本稿では,アメリカとアメリカのパブリックな人物の名前対からなる新しいデータセットをトレーニングした,意味応答類似性のためのクロスエンコーダ拡張バイエンコーダとBERTScoreモデルを提案する。
共参照型文字列ペアの最初のデータセットとその類似性について,トレーニングに使用可能なデータセットを提供する。
論文 参考訳(メタデータ) (2022-06-25T14:40:36Z) - A Study on the Evaluation of Generative Models [19.18642459565609]
潜在的生成モデルは、確率値を返さないが、近年は普及している。
本研究では,高品質な合成データセットの生成による生成モデルの評価指標について検討する。
FIDとISはいくつかのf-divergensと相関するが、クローズドモデルのランクは様々である。
論文 参考訳(メタデータ) (2022-06-22T09:27:31Z) - Identifying Ambiguous Similarity Conditions via Semantic Matching [49.06931755266372]
Weakly Supervised Conditional similarity Learning (WS-CSL)を紹介する。
WS-CSLは、"can fly"のような明示的な条件ラベルなしでセマンティック条件にマッチする複数の埋め込みを学習する
本研究では, インスタンスインスタンスと三重項条件の関係を「分解・融合」方式で特徴付ける, 距離誘起セマンティック・コンディション検証ネットワーク (DiscoverNet) を提案する。
論文 参考訳(メタデータ) (2022-04-08T13:15:55Z) - 'Tis but Thy Name: Semantic Question Answering Evaluation with 11M Names
for 1M Entities [0.0]
Wiki Entity similarity(WES)データセットは、Wikipediaのリンクテキストから生成される111M例、ドメインターゲット、セマンティックエンティティ類似性データセットである。
例はエンティティとフレーズで、セマンティッククラスタにグループ化され、複数の基底構造ラベルをシミュレートする。
人間のアノテータは、WESラベルに一貫して同意し、基本的なクロスエンコーダメトリックは、人間の正当性を予測するための4つの古典的な指標よりも優れている。
論文 参考訳(メタデータ) (2022-02-28T07:12:39Z) - A Theory-Driven Self-Labeling Refinement Method for Contrastive
Representation Learning [111.05365744744437]
教師なしのコントラスト学習は、正のイメージの作物と、負のイメージの作物とをラベル付けする。
本研究は, コントラスト学習において, 不正確なラベル割り当てがセマンティック・インスタンス識別の一般化を著しく損なうことを最初に証明する。
この理論に触発されて、コントラスト学習のための新しい自己ラベル改善手法を提案する。
論文 参考訳(メタデータ) (2021-06-28T14:24:52Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。