論文の概要: A Survey on Sentence Embedding Models Performance for Patent Analysis
- arxiv url: http://arxiv.org/abs/2206.02690v3
- Date: Fri, 5 Aug 2022 14:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 06:24:32.561082
- Title: A Survey on Sentence Embedding Models Performance for Patent Analysis
- Title(参考訳): 特許解析のための文埋め込みモデルの性能調査
- Authors: Hamid Bekamiri, Daniel S. Hain, Roman Jurowetzki
- Abstract要約: 本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Patent data is an important source of knowledge for innovation research,
while the technological similarity between pairs of patents is a key enabling
indicator for patent analysis. Recently researchers have been using patent
vector space models based on different NLP embeddings models to calculate the
technological similarity between pairs of patents to help better understand
innovations, patent landscaping, technology mapping, and patent quality
evaluation. More often than not, Text Embedding is a vital precursor to patent
analysis tasks. A pertinent question then arises: How should we measure and
evaluate the accuracy of these embeddings? To the best of our knowledge, there
is no comprehensive survey that builds a clear delineation of embedding models'
performance for calculating patent similarity indicators. Therefore, in this
study, we provide an overview of the accuracy of these algorithms based on
patent classification performance and propose a standard library and dataset
for assessing the accuracy of embeddings models based on PatentSBERTa approach.
In a detailed discussion, we report the performance of the top 3 algorithms at
section, class, and subclass levels. The results based on the first claim of
patents show that PatentSBERTa, Bert-for-patents, and TF-IDF Weighted Word
Embeddings have the best accuracy for computing sentence embeddings at the
subclass level. According to the first results, the performance of the models
in different classes varies, which shows researchers in patent analysis can
utilize the results of this study to choose the best proper model based on the
specific section of patent data they used.
- Abstract(参考訳): 特許データは、イノベーション研究における重要な知識の源であり、特許のペア間の技術的類似性は、特許分析の鍵となる指標である。
最近の研究者は、異なるNLP埋め込みモデルに基づく特許ベクトル空間モデルを使用して、イノベーション、特許造園、技術マッピング、および特許品質評価の理解を深めるために、特許のペア間の技術的類似性を計算する。
たいていの場合、Text Embeddingは特許分析タスクにとって重要な先駆者だ。
これらの埋め込みの精度をどうやって測定し、評価するべきか?
私たちの知る限りでは、特許の類似性指標を計算するために埋め込みモデルのパフォーマンスを明確に記述した包括的な調査はありません。
そこで本研究では,これらのアルゴリズムの精度を特許分類性能に基づいて概説し,PhilipsSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
詳細な議論では、セクション、クラス、サブクラスの上位3つのアルゴリズムの性能について報告する。
特許の最初の主張に基づく結果は、PatentSBERTa, Bert-for-patents, TF-IDF Weighted Word Embeddingsがサブクラスレベルでの文埋め込みの計算に最適であることを示している。
最初の結果によると、異なるクラスのモデルの性能が異なるため、特許分析の研究者は、この研究の結果を利用して、使用した特許データの特定のセクションに基づいて最適なモデルを選択することができる。
関連論文リスト
- PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - ClaimBrush: A Novel Framework for Automated Patent Claim Refinement Based on Large Language Models [3.3427063846107825]
ClaimBrushは、データセットと書き換えモデルを含む、自動パテントクレーム改善のための新しいフレームワークである。
本研究は,特許請求書書き換え事例を多数集めて,特許請求書書き換えモデルの訓練と評価のためのデータセットを構築した。
提案する書き換えモデルは,最先端の大規模言語モデルにおいて,ベースラインとゼロショット学習に優れていた。
論文 参考訳(メタデータ) (2024-10-08T00:20:54Z) - Structural Representation Learning and Disentanglement for Evidential Chinese Patent Approval Prediction [19.287231890434718]
本稿では,検索に基づく分類手法を用いて,本課題の先駆的取り組みについて述べる。
本稿では,構造表現学習と絡み合いに着目したDiSPatという新しいフレームワークを提案する。
弊社のフレームワークは、特許承認の予測に関する最先端のベースラインを超越し、明確性の向上も示している。
論文 参考訳(メタデータ) (2024-08-23T05:44:16Z) - A comparative analysis of embedding models for patent similarity [0.0]
本稿では,テキストに基づく特許類似性の分野に2つの貢献をする。
これは、異なる種類の特許固有の事前訓練された埋め込みモデルの性能を比較する。
論文 参考訳(メタデータ) (2024-03-25T11:20:23Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Hybrid Model for Patent Classification using Augmented SBERT and KNN [0.0]
本研究は、Sentence-BERT (SBERT) と K Nearest Neighbours (KNN) による特許クレーム分類のハイブリッドアプローチを提供することを目的とする。
提案フレームワークは,トップkのセマンティック類似性特許の検索に基づいて,個々の入力特許クラスとサブクラスを予測する。
論文 参考訳(メタデータ) (2021-03-22T15:23:19Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。