論文の概要: Presenting Terrorizer: an algorithm for consolidating company names in patent assignees
- arxiv url: http://arxiv.org/abs/2403.12083v1
- Date: Thu, 7 Mar 2024 09:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 07:36:54.667762
- Title: Presenting Terrorizer: an algorithm for consolidating company names in patent assignees
- Title(参考訳): Presenting Terrorizer: 特許割り当て者における企業名の統合アルゴリズム
- Authors: Grazia Sveva Ascione, Valerio Sterzi,
- Abstract要約: Terrorizerはテキストベースのアルゴリズムで、特許割り当て者として記録された企業名の変種を調和させる。
我々は、2005年から2022年までUSPTOが付与した特許を割り当てる325'917社の名前にTerrorizerを使用します。
最終結果は、最初の42%以上の名前のセットを減らしたことです。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of disambiguation of company names poses a significant challenge in extracting useful information from patents. This issue biases research outcomes as it mostly underestimates the number of patents attributed to companies, particularly multinational corporations which file patents under a plethora of names, including alternate spellings of the same entity and, eventually, companies' subsidiaries. To date, addressing these challenges has relied on labor-intensive dictionary based or string matching approaches, leaving the problem of patents' assignee harmonization on large datasets mostly unresolved. To bridge this gap, this paper describes the Terrorizer algorithm, a text-based algorithm that leverages natural language processing (NLP), network theory, and rule-based techniques to harmonize the variants of company names recorded as patent assignees. In particular, the algorithm follows the tripartite structure of its antecedents, namely parsing, matching and filtering stage, adding an original "knowledge augmentation" phase which is used to enrich the information available on each assignee name. We use Terrorizer on a set of 325'917 companies' names who are assignees of patents granted by the USPTO from 2005 to 2022. The performance of Terrorizer is evaluated on four gold standard datasets. This validation step shows us two main things: the first is that the performance of Terrorizer is similar over different kind of datasets, proving that our algorithm generalizes well. Second, when comparing its performance with the one of the algorithm currently used in PatentsView for the same task (Monath et al., 2021), it achieves a higher F1 score. Finally, we use the Tree-structured Parzen Estimator (TPE) optimization algorithm for the hyperparameters' tuning. Our final result is a reduction in the initial set of names of over 42%.
- Abstract(参考訳): 企業名の曖昧化という問題は、特許から有用な情報を抽出する上で大きな課題となっている。
この問題は、主に企業、特に複数の名称で特許を提出する多国籍企業、例えば同一企業の代替の綴りや、最終的には子会社の番号などによる特許の数を過小評価しているため、研究成果に偏っている。
これまで、これらの課題に対処するには、労働集約型辞書や文字列マッチングアプローチを頼りにしており、特許の大規模データセットに対する割譲調和の問題はほとんど解決されていない。
このギャップを埋めるために、本論文では、自然言語処理(NLP)、ネットワーク理論、ルールベースの手法を利用したテキストベースのアルゴリズムであるTerrorizerアルゴリズムについて述べる。
特に、アルゴリズムは前任者の三部構造、すなわちパース、マッチング、フィルタリングの段階に従っており、各割り当て者名に利用可能な情報を強化するために使用される、元の"知識増強"フェーズを追加する。
我々は、2005年から2022年までUSPTOが付与した特許を割り当てる325'917社の名前にTerrorizerを使用します。
Terrorizerのパフォーマンスは4つのゴールド標準データセットで評価される。
ひとつは、Terrorizerのパフォーマンスが、異なる種類のデータセットに似ており、我々のアルゴリズムがうまく一般化していることを証明することです。
第2に、現在PatentsViewで使われている同じタスク(Monath et al , 2021)のパフォーマンスを比較すると、より高いF1スコアが得られる。
最後に,木構造型Parzen Estimator (TPE) 最適化アルゴリズムを用いてハイパーパラメータのチューニングを行う。
最終結果は、最初の42%以上の名前のセットを減らしたことです。
関連論文リスト
- ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs [2.60235825984014]
我々は、IRおよびMLモデルのトレーニングに適したラベル付き特許請求データセットを生成するように設計された、新しいデータパイプラインであるCrimCompareを紹介する。
私たちの知る限りでは、ClaymCompareは、特許データセットを破壊する新規性を複数生成できる最初のパイプラインです。
論文 参考訳(メタデータ) (2024-07-16T21:38:45Z) - Regularization-Based Methods for Ordinal Quantification [49.606912965922504]
順序の場合、すなわち n>2 クラスの集合上で全順序が定義される場合について研究する。
本稿では,従来のアルゴリズムよりも優れた正規化OQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-13T16:04:06Z) - Biomedical Named Entity Recognition via Dictionary-based Synonym
Generalization [51.89486520806639]
本研究では,入力テキストに含まれる生物医学的概念をスパンベース予測を用いて認識する,新しいSynGenフレームワークを提案する。
提案手法を広範囲のベンチマークで広範囲に評価し,SynGenが従来の辞書ベースモデルよりも顕著なマージンで優れていることを確認した。
論文 参考訳(メタデータ) (2023-05-22T14:36:32Z) - A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。
私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。
2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%~30%、ハードケースでは36%~43%である。
論文 参考訳(メタデータ) (2023-03-23T16:15:03Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - Estimating the Performance of Entity Resolution Algorithms: Lessons
Learned Through PatentsView.org [3.8494315501944736]
本稿では,エンティティ・リゾリューション・アルゴリズムのための新しい評価手法を提案する。
これは米国特許商標庁の特許データ調査ツールであるPatentsView.orgによって動機付けられている。
論文 参考訳(メタデータ) (2022-10-03T21:06:35Z) - Text Summarization with Oracle Expectation [88.39032981994535]
抽出要約は、文書の中で最も重要な文を識別し、連結することによって要約を生成する。
ほとんどの要約データセットは、文書文が要約に値するかどうかを示す金のラベルを持っていない。
本稿では,ソフトな予測に基づく文ラベルを生成する,シンプルで効果的なラベル付けアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-26T14:10:08Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z) - Bayesian decision-making under misspecified priors with applications to
meta-learning [64.38020203019013]
トンプソンサンプリングやその他のシーケンシャルな意思決定アルゴリズムは、文脈的包帯における探索と探索のトレードオフに取り組むための一般的なアプローチである。
性能は不特定な事前条件で優雅に低下することを示す。
論文 参考訳(メタデータ) (2021-07-03T23:17:26Z) - Introduction of a novel word embedding approach based on technology
labels extracted from patent data [0.0]
本稿では,人間のラベル付きデータの統計的解析を用いた単語埋め込み手法を提案する。
このアルゴリズムは以前のEQMania UG(eqmania.com)の開発であり、2021年4月までeqalice.comでテストできる。
論文 参考訳(メタデータ) (2021-01-31T10:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。