論文の概要: Patents Phrase to Phrase Semantic Matching Dataset
- arxiv url: http://arxiv.org/abs/2208.01171v1
- Date: Mon, 1 Aug 2022 23:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 12:45:52.688093
- Title: Patents Phrase to Phrase Semantic Matching Dataset
- Title(参考訳): patent phrase to phrase semantic matching dataset (英語)
- Authors: Grigor Aslanyan, Ian Wetherbee
- Abstract要約: 本稿では,単語マッチングデータセットに対して,人格付き文脈句を新たに提案する。
データセット全体には5万ドル近い評価済みのフレーズペアが含まれており、それぞれにコンテキストとしてCPC(Cooperative Patent Classification)クラスがある。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are many general purpose benchmark datasets for Semantic Textual
Similarity but none of them are focused on technical concepts found in patents
and scientific publications. This work aims to fill this gap by presenting a
new human rated contextual phrase to phrase matching dataset. The entire
dataset contains close to $50,000$ rated phrase pairs, each with a CPC
(Cooperative Patent Classification) class as a context. This paper describes
the dataset and some baseline models.
- Abstract(参考訳): セマンティックテキスト類似性のための汎用ベンチマークデータセットは多数存在するが、いずれも特許や科学出版物に見られる技術的な概念に焦点を当てていない。
本研究の目的は,新しい人間格付き文脈句をフレーズマッチングデータセットに提示することで,このギャップを埋めることである。
データセット全体は5万ドル近い評価付きフレーズペアを含み、それぞれにコンテキストとしてCPC(Cooperative Patent Classification)クラスがある。
本稿では,データセットとベースラインモデルについて述べる。
関連論文リスト
- Compositional Generalization for Data-to-Text Generation [86.79706513098104]
本稿では,群に述語をクラスタ化することで構成一般化に対処する新しいモデルを提案する。
本モデルでは,1つの述語を1度に1つのクラスタに依存して文単位でテキストを生成する。
すべての評価指標でT5ベースラインをはるかに上回る。
論文 参考訳(メタデータ) (2023-12-05T13:23:15Z) - A Novel Multidimensional Reference Model For Heterogeneous Textual
Datasets Using Context, Semantic And Syntactic Clues [4.453735522794044]
本研究の目的は、異種データセットのカテゴリを用いた新しい多次元参照モデルを作ることである。
MRMの主な貢献は、シノニム、アントロニム、フォーマル、語彙語順、共起といった言語カテゴリーの索引付けに基づいて各用語でそれぞれのトークンをチェックすることである。
論文 参考訳(メタデータ) (2023-11-10T17:02:25Z) - CinPatent: Datasets for Patent Classification [4.3187100116167025]
我々は、CPCコードを用いて収集した英語と日本語の2つの新しいデータセットを紹介した。
英語データセットには45,131の特許文書と425のラベルがあり、日本語データセットには54,657のドキュメントと523のラベルが含まれている。
本研究では,2つのデータセット上での強いマルチラベルテキスト分類手法の性能を比較した。
論文 参考訳(メタデータ) (2022-12-23T08:23:32Z) - A Dataset for Plain Language Adaptation of Biomedical Abstracts [15.192291280727073]
このデータセットは、文書と文の整合性を持った最初の手動適応データセットである。
データセットを記述するとともに、最新のDeep Learningアプローチでデータセットの自動適応をベンチマークします。
論文 参考訳(メタデータ) (2022-10-21T20:47:34Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - SemGloVe: Semantic Co-occurrences for GloVe from BERT [55.420035541274444]
GloVeは単語共起行列からの統計情報を利用して単語埋め込みを学ぶ。
BERTから静的なGloVeワード埋め込みに意味的共起を蒸留するSemGloVeを提案します。
論文 参考訳(メタデータ) (2020-12-30T15:38:26Z) - Comparative analysis of word embeddings in assessing semantic similarity
of complex sentences [8.873705500708196]
既存のベンチマークデータセットの文を解析し,文の複雑さに関する各種単語埋め込みの感度を解析する。
その結果, 文の複雑さの増大は, 埋め込みモデルの性能に重大な影響を及ぼすことがわかった。
論文 参考訳(メタデータ) (2020-10-23T19:55:11Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。