論文の概要: 'Tis but Thy Name: Semantic Question Answering Evaluation with 11M Names
for 1M Entities
- arxiv url: http://arxiv.org/abs/2202.13581v1
- Date: Mon, 28 Feb 2022 07:12:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 05:58:23.200313
- Title: 'Tis but Thy Name: Semantic Question Answering Evaluation with 11M Names
for 1M Entities
- Title(参考訳): 100万のエンティティを1100万の名前で評価する意味的質問
- Authors: Albert Huang
- Abstract要約: Wiki Entity similarity(WES)データセットは、Wikipediaのリンクテキストから生成される111M例、ドメインターゲット、セマンティックエンティティ類似性データセットである。
例はエンティティとフレーズで、セマンティッククラスタにグループ化され、複数の基底構造ラベルをシミュレートする。
人間のアノテータは、WESラベルに一貫して同意し、基本的なクロスエンコーダメトリックは、人間の正当性を予測するための4つの古典的な指標よりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classic lexical-matching-based QA metrics are slowly being phased out because
they punish succinct or informative outputs just because those answers were not
provided as ground truth. Recently proposed neural metrics can evaluate
semantic similarity but were trained on small textual similarity datasets
grafted from foreign domains. We introduce the Wiki Entity Similarity (WES)
dataset, an 11M example, domain targeted, semantic entity similarity dataset
that is generated from link texts in Wikipedia. WES is tailored to QA
evaluation: the examples are entities and phrases and grouped into semantic
clusters to simulate multiple ground-truth labels. Human annotators
consistently agree with WES labels, and a basic cross encoder metric is better
than four classic metrics at predicting human judgments of correctness.
- Abstract(参考訳): 古典的な語彙マッチングベースのQAメトリクスは、答えが基礎的な真実として提供されていないためではなく、簡潔さや情報的アウトプットを罰するため、徐々に段階的に廃止されている。
最近提案されたニューラルメトリクスは意味的類似性を評価することができるが、外国ドメインから移植された小さなテキスト類似性データセットに基づいて訓練された。
ウィキエンティティ類似度データセット (wiki entity similarity dataset, wes) は、ウィキペディアのリンクテキストから生成される、ドメインを対象とする意味エンティティ類似度データセットである。
例はエンティティとフレーズであり、複数の接地ラベルをシミュレートするためにセマンティッククラスタにグループ化されます。
人間のアノテータは、WESラベルに一貫して同意し、基本的なクロスエンコーダメトリックは、人間の正当性を予測するための4つの古典的な指標よりも優れている。
関連論文リスト
- Tomato, Tomahto, Tomate: Measuring the Role of Shared Semantics among Subwords in Multilingual Language Models [88.07940818022468]
エンコーダのみの多言語言語モデル(mLM)におけるサブワード間の共有セマンティクスの役割を測る第一歩を踏み出した。
意味的に類似したサブワードとその埋め込みをマージして「意味トークン」を形成する。
グループ化されたサブワードの検査では 様々な意味的類似性を示します
論文 参考訳(メタデータ) (2024-11-07T08:38:32Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - Evaluation of Semantic Answer Similarity Metrics [0.0]
そこで本稿では,アメリカとアメリカのパブリックな人物の名前対からなる新しいデータセットをトレーニングした,意味応答類似性のためのクロスエンコーダ拡張バイエンコーダとBERTScoreモデルを提案する。
共参照型文字列ペアの最初のデータセットとその類似性について,トレーニングに使用可能なデータセットを提供する。
論文 参考訳(メタデータ) (2022-06-25T14:40:36Z) - Global Explainability of BERT-Based Evaluation Metrics by Disentangling
along Linguistic Factors [14.238125731862658]
我々は意味論、構文学、形態学、語彙的重複を含む言語的要因に沿ってメートル法スコアをアンタングルする。
異なるメトリクスがすべての側面をある程度捉えていることを示すが、これらはすべてBLEUやROUGEと同じように、語彙重なりにかなり敏感である。
論文 参考訳(メタデータ) (2021-10-08T22:40:33Z) - Semantic Answer Similarity for Evaluating Question Answering Models [2.279676596857721]
SASは、意味応答の類似度を推定するためのクロスエンコーダベースの計量である。
近年の変圧器モデルに基づく意味的類似度指標は,従来の語彙的類似度指標よりも人間の判断とよく相関していることを示す。
論文 参考訳(メタデータ) (2021-08-13T09:12:27Z) - EDS-MEMBED: Multi-sense embeddings based on enhanced distributional
semantic structures via a graph walk over word senses [0.0]
WordNetの豊富なセマンティック構造を活用して、マルチセンス埋め込みの品質を高めます。
M-SEの新たな分布意味類似度測定法を先行して導出する。
WSDとWordの類似度タスクを含む11のベンチマークデータセットの評価結果を報告します。
論文 参考訳(メタデータ) (2021-02-27T14:36:55Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - PARADE: A New Dataset for Paraphrase Identification Requiring Computer
Science Domain Knowledge [35.66853329610162]
PARADEには、語彙や構文レベルではほとんど重複しないパラフレーズが含まれているが、コンピュータサイエンスのドメイン知識に基づいた意味論的に等価である。
実験により、最先端のニューラルモデルと熟練していない人間のアノテータの両方がPARADEの性能が劣っていることが示された。
論文 参考訳(メタデータ) (2020-10-08T02:01:31Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Human Correspondence Consensus for 3D Object Semantic Understanding [56.34297279246823]
本稿では,CorresPondenceNetという新しいデータセットを提案する。
このデータセットに基づいて、新しい測地的整合性損失を伴う密接なセマンティック埋め込みを学習することができる。
CorresPondenceNetは異種オブジェクトの細粒度理解を促進できるだけでなく、クロスオブジェクト登録や部分オブジェクトマッチングも実現できた。
論文 参考訳(メタデータ) (2019-12-29T04:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。