論文の概要: The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications
- arxiv url: http://arxiv.org/abs/2207.04043v1
- Date: Fri, 8 Jul 2022 17:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:40:53.433567
- Title: The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications
- Title(参考訳): ハーバードUSPTO特許データセット:大規模で、構造化され、多目的の特許出願コーパス
- Authors: Mirac Suzgun, Luke Melas-Kyriazi, Suproteem K. Sarkar, Scott Duke
Kominers, Stuart M. Shieber
- Abstract要約: ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
- 参考スコア(独自算出の注目度): 8.110699646062384
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Innovation is a major driver of economic and social development, and
information about many kinds of innovation is embedded in semi-structured data
from patents and patent applications. Although the impact and novelty of
innovations expressed in patent data are difficult to measure through
traditional means, ML offers a promising set of techniques for evaluating
novelty, summarizing contributions, and embedding semantics. In this paper, we
introduce the Harvard USPTO Patent Dataset (HUPD), a large-scale,
well-structured, and multi-purpose corpus of English-language patent
applications filed to the United States Patent and Trademark Office (USPTO)
between 2004 and 2018. With more than 4.5 million patent documents, HUPD is two
to three times larger than comparable corpora. Unlike previously proposed
patent datasets in NLP, HUPD contains the inventor-submitted versions of patent
applications--not the final versions of granted patents--thereby allowing us to
study patentability at the time of filing using NLP methods for the first time.
It is also novel in its inclusion of rich structured metadata alongside the
text of patent filings: By providing each application's metadata along with all
of its text fields, the dataset enables researchers to perform new sets of NLP
tasks that leverage variation in structured covariates. As a case study on the
types of research HUPD makes possible, we introduce a new task to the NLP
community--namely, binary classification of patent decisions. We additionally
show the structured metadata provided in the dataset enables us to conduct
explicit studies of concept shifts for this task. Finally, we demonstrate how
HUPD can be used for three additional tasks: multi-class classification of
patent subject areas, language modeling, and summarization.
- Abstract(参考訳): イノベーションは経済と社会開発の主要な原動力であり、多くの種類のイノベーションに関する情報は、特許や特許出願の半構造化データに埋め込まれている。
特許データで表現されるイノベーションの影響と新規性は、従来の方法で測定することは難しいが、MLは、新規性を評価し、貢献を要約し、セマンティクスを埋め込むための有望なテクニックセットを提供する。
本稿では,2004年から2018年にかけて米国特許商標庁(USPTO)に提出された,大規模で構造化された多目的英語特許出願コーパスであるHUPD(Harvard USPTO Patent Dataset)を紹介する。
450万以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
これまで提案されていたnlpの特許データセットとは異なり、hupdは特許出願の発明者によるバージョンを含んでおり、認可された特許の最終バージョンではない。
それぞれのアプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは、構造化された共変量の変化を利用する新たなNLPタスクセットの実行を可能にします。
HUPDがもたらす研究のタイプに関するケーススタディとして,特許決定のバイナリ分類という新たな課題をNLPコミュニティに導入する。
さらに、データセットに提供される構造化メタデータにより、このタスクの概念シフトを明示的に研究できることを示す。
最後に,HUPDが特許対象領域のマルチクラス分類,言語モデリング,要約の3つのタスクにどのように使用できるかを示す。
関連論文リスト
- PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - Pap2Pat: Towards Automated Paper-to-Patent Drafting using Chunk-based Outline-guided Generation [13.242188189150987]
PAP2PATは、文書概要を含む1.8kの特許と特許のペアの新しい挑戦的なベンチマークである。
現在のオープンウェイト LLM とアウトライン誘導型ジェネレーションによる実験は,特許言語の本質的な反復性のために,論文からの情報を効果的に活用できるが,繰り返しに苦慮していることを示している。
論文 参考訳(メタデータ) (2024-10-09T15:52:48Z) - Natural Language Processing in Patents: A Survey [0.0]
重要な技術的および法的情報をカプセル化した特許は、自然言語処理(NLP)アプリケーションのための豊富なドメインを提供する。
NLP技術が発展するにつれて、大規模言語モデル(LLM)は一般的なテキスト処理や生成タスクにおいて優れた能力を示してきた。
本稿は,NLP研究者に,この複雑な領域を効率的にナビゲートするために必要な知識を付与することを目的とする。
論文 参考訳(メタデータ) (2024-03-06T23:17:16Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Leveraging Large Language Models to Improve REST API Testing [51.284096009803406]
RESTGPTはAPI仕様を入力として、機械解釈可能なルールを抽出し、仕様内の自然言語記述からサンプルパラメータ値を生成する。
評価の結果、RESTGPTはルール抽出と値生成の両方において既存の技術よりも優れています。
論文 参考訳(メタデータ) (2023-12-01T19:53:23Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - Patent Sentiment Analysis to Highlight Patent Paragraphs [0.0]
特許文書が与えられた場合、異なるセマンティックアノテーションを識別することは興味深い研究の側面である。
手動の特許分析の過程で、より読みやすくするために、段落をマークして意味情報を認識することが実際である。
この作業は、セマンティック情報を自動的に強調する特許実践者を支援し、機械学習の適性を利用して持続的で効率的な特許分析を作成するのに役立つ。
論文 参考訳(メタデータ) (2021-11-06T13:28:29Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Determinantal Point Processes in Randomized Numerical Linear Algebra [80.27102478796613]
数値線形代数(RandNLA)は、科学計算、データサイエンス、機械学習などで発生する行列問題に対する改良されたアルゴリズムを開発するためにランダム性を使用する。
最近の研究により、DPPとRandNLAの間の深い実りある関係が明らかになり、新たな保証とアルゴリズムの改善につながった。
論文 参考訳(メタデータ) (2020-05-07T00:39:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。