論文の概要: CORD19STS: COVID-19 Semantic Textual Similarity Dataset
- arxiv url: http://arxiv.org/abs/2007.02461v2
- Date: Mon, 2 Nov 2020 19:28:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-13 08:12:24.223894
- Title: CORD19STS: COVID-19 Semantic Textual Similarity Dataset
- Title(参考訳): CORD19STS: COVID-19セマンティックテキスト類似性データセット
- Authors: Xiao Guo and Hengameh Mirzaalian and Ekraam Sabir and Ayush Jaiswal
and Wael Abd-Almageed
- Abstract要約: オープンリサーチデータセット(CORD-19チャレンジ)から収集した13,710の注釈付き文対を含むCORD19STSデータセットを紹介する。
それぞれの文対は5人のAmazon Mechanical Turk (AMT) の群衆労働者によって注釈付けされ、それぞれのラベルは文対の間に異なる意味的類似度レベルを表す。
収集したアノテーションの検証に厳格な資格タスクを使用した後、最後のCORD19STSデータセットは13,710対の文対を含む。
- 参考スコア(独自算出の注目度): 17.333108123527783
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to combat the COVID-19 pandemic, society can benefit from various
natural language processing applications, such as dialog medical diagnosis
systems and information retrieval engines calibrated specifically for COVID-19.
These applications rely on the ability to measure semantic textual similarity
(STS), making STS a fundamental task that can benefit several downstream
applications. However, existing STS datasets and models fail to translate their
performance to a domain-specific environment such as COVID-19. To overcome this
gap, we introduce CORD19STS dataset which includes 13,710 annotated sentence
pairs collected from COVID-19 open research dataset (CORD-19) challenge. To be
specific, we generated one million sentence pairs using different sampling
strategies. We then used a finetuned BERT-like language model, which we call
Sen-SCI-CORD19-BERT, to calculate the similarity scores between sentence pairs
to provide a balanced dataset with respect to the different semantic similarity
levels, which gives us a total of 32K sentence pairs. Each sentence pair was
annotated by five Amazon Mechanical Turk (AMT) crowd workers, where the labels
represent different semantic similarity levels between the sentence pairs (i.e.
related, somewhat-related, and not-related). After employing a rigorous
qualification tasks to verify collected annotations, our final CORD19STS
dataset includes 13,710 sentence pairs.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックに対抗するため、ダイアログ診断システムや情報検索エンジンなど、さまざまな自然言語処理の恩恵を受けることができる。
これらのアプリケーションは、セマンティックテキスト類似度(STS)を測定する能力に依存しており、STSをいくつかの下流アプリケーションに役立つ基本的なタスクにしている。
しかし、既存のSTSデータセットやモデルは、そのパフォーマンスをCOVID-19のようなドメイン固有の環境に変換することができない。
このギャップを克服するために、covid-19 open research dataset(cord-19)チャレンジから収集された13,710個の注釈付き文ペアを含むcord19stsデータセットを紹介する。
具体的には、異なるサンプリング戦略を用いて100万文ペアを生成しました。
次に,SCI-CORD19-BERTと呼ばれる細分化BERT型言語モデルを用いて文ペア間の類似度スコアを計算し,各意味類似度レベルに対するバランスの取れたデータセットを提供することにより,合計32Kの文ペアを得る。
それぞれの文対はアマゾン・メカニカル・トルコ(AMT)の5人の群衆労働者によって注釈付けされ、それぞれのラベルは文対間の意味的類似度(関係性、関係性、非関連性)が異なる。
収集したアノテーションの検証に厳格な資格タスクを使用した後、最後のCORD19STSデータセットは13,710の文対を含む。
関連論文リスト
- Synth4Kws: Synthesized Speech for User Defined Keyword Spotting in Low Resource Environments [8.103855990028842]
テキスト・トゥ・スピーチ(TTS)合成データをカスタムKWSに活用するフレームワークであるSynth4Kwsを紹介する。
TTSフレーズの多様性が増大し,発話サンプリングが単調にモデル性能を向上することがわかった。
我々の実験は英語と単一単語の発話に基づいているが、この結果はi18n言語に一般化されている。
論文 参考訳(メタデータ) (2024-07-23T21:05:44Z) - NLU-STR at SemEval-2024 Task 1: Generative-based Augmentation and Encoder-based Scoring for Semantic Textual Relatedness [0.5461938536945721]
SemEval-2024の共有タスクであるSemRel-2024は、意味的関連性タスクのギャップを減らすことを目的としている。
本稿では,トラックA(アルジェリア方言とモロッコ方言)とトラックB(現代標準アラビア語)への参加について報告する。
スピアマン相関スコア0.49のSemRel-2024で1位となった。
論文 参考訳(メタデータ) (2024-05-01T17:44:05Z) - Navya3DSeg -- Navya 3D Semantic Segmentation Dataset & split generation
for autonomous vehicles [63.20765930558542]
3Dセマンティックデータは、障害物検出やエゴ-車両の局所化といった中核的な認識タスクに有用である。
そこで我々は,大規模生産段階の運用領域に対応する多様なラベル空間を持つ新しいデータセットであるNavala 3D(Navya3DSeg)を提案する。
ラベルのない23のラベル付きシーケンスと25の補足シーケンスが含まれており、ポイントクラウド上の自己教師付きおよび半教師付きセマンティックセマンティックセグメンテーションベンチマークを探索するために設計された。
論文 参考訳(メタデータ) (2023-02-16T13:41:19Z) - HIT-SCIR at MMNLU-22: Consistency Regularization for Multilingual Spoken
Language Understanding [56.756090143062536]
本稿では,ハイブリッドデータ拡張戦略に基づく一貫性の正則化を提案する。
フルデータセットとゼロショット設定の両方で、MASSIVEデータセット上で実験を行う。
提案手法はインテント検出とスロット充足の両方の性能を向上させる。
論文 参考訳(メタデータ) (2023-01-05T11:21:15Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - Natural Language Inference with Self-Attention for Veracity Assessment
of Pandemic Claims [54.93898455714295]
まず、COVID-19に関する異質なクレームからなる新しいPANACEAデータセットの構築について述べる。
そこで我々は,自然言語推論に基づく自動妥当性評価のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-05-05T12:11:31Z) - What Makes Sentences Semantically Related: A Textual Relatedness Dataset
and Empirical Study [31.062129406113588]
本稿では,5500の英文対を手動で注釈付けしたセマンティックテキスト関連性データセットSTR-2022を紹介する。
文対の関連性に関する人間の直感は信頼性が高く, 繰り返しアノテーションの相関は0.84である。
また, STR-2022は, 文章表現の自動手法や, 下流の様々なNLPタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2021-10-10T16:23:54Z) - How COVID-19 Is Changing Our Language : Detecting Semantic Shift in
Twitter Word Embeddings [16.520392870150797]
研究は、健康危機によって引き起こされるソーシャルメディア言語の意味的変化を検出することを目指しています。
新型コロナウイルス関連ビッグデータをTwitterから抽出し、流行後、異なる期間に別々の単語埋め込みモデルをトレーニングします。
前後回転アライメントに基づく安定性測定により、グローバルセマンティックシフトの大きさを定量化します。
論文 参考訳(メタデータ) (2021-02-15T20:29:00Z) - CO-Search: COVID-19 Information Retrieval with Semantic Search, Question
Answering, and Abstractive Summarization [53.67205506042232]
CO-Searchは、新型コロナウイルスの文献上の複雑なクエリを処理するように設計された、レトリバーランサーセマンティック検索エンジンである。
ドメイン固有の比較的限られたデータセットを考慮し、文書の段落と引用の2部グラフを生成する。
TREC-COVID情報検索課題のデータに基づいて,本システムの評価を行った。
論文 参考訳(メタデータ) (2020-06-17T01:32:48Z) - Rapidly Bootstrapping a Question Answering Dataset for COVID-19 [88.86456834766288]
我々は、新型コロナウイルスに特化して設計された質問応答データセットの始まりであるCovidQAを紹介する。
これは、そのタイプの最初の公開リソースであり、より実質的な評価資源が利用可能になるまで研究を導くためのストップギャップとして意図されている。
論文 参考訳(メタデータ) (2020-04-23T17:35:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。