論文の概要: Hybrid Model for Patent Classification using Augmented SBERT and KNN
- arxiv url: http://arxiv.org/abs/2103.11933v1
- Date: Mon, 22 Mar 2021 15:23:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 20:37:22.665970
- Title: Hybrid Model for Patent Classification using Augmented SBERT and KNN
- Title(参考訳): 拡張SBERTとKNNを用いた特許分類のハイブリッドモデル
- Authors: Hamid Bekamiri, Daniel S. Hain, Roman Jurowetzki
- Abstract要約: 本研究は、Sentence-BERT (SBERT) と K Nearest Neighbours (KNN) による特許クレーム分類のハイブリッドアプローチを提供することを目的とする。
提案フレームワークは,トップkのセマンティック類似性特許の検索に基づいて,個々の入力特許クラスとサブクラスを予測する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Purpose: This study aims to provide a hybrid approach for patent claim
classification with Sentence-BERT (SBERT) and K Nearest Neighbours (KNN) and
explicitly focuses on the patent claims. Patent classification is a multi-label
classification task in which the number of labels can be greater than 640 at
the subclass level. The proposed framework predicts individual input patent
class and subclass based on finding top k semantic similarity patents.
Design/Methodology/Approach: The study uses transformer models based on
Augmented SBERT and RoBERTa. We use a different approach to predict patent
classification by finding top k similar patent claims and using the KNN
algorithm to predict patent class or subclass. Besides, in this study, we just
focus on patent claims, and in the future study, we add other appropriate parts
of patent documents. Findings: The findings suggest the relevance of hybrid
models to predict multi-label classification based on text data. In this
approach, we used the Transformer model as the distance function in KNN, and
proposed a new version of KNN based on Augmented SBERT. Practical Implications:
The presented framework provides a practical model for patent classification.
In this study, we predict the class and subclass of the patent based on
semantic claims similarity. The end-user interpretability of the results is one
of the essential positive points of the model. Originality/Value: The main
contribution of the study included: 1) Using the Augmented approach for
fine-tuning SBERT by in-domain supervised patent claims data. 2) Improving
results based on a hybrid model for patent classification. The best result of
F1-score at the subclass level was > 69%) Proposing the practical model with
high interpretability of results.
- Abstract(参考訳): 目的: 本研究は, SBERT(Sentence-BERT)とK Nearest Neighbours(KNN)を併用した特許クレーム分類のためのハイブリッドアプローチを提供することを目的としている。
特許分類(英: patent classification)は、サブクラスレベルで640以上のラベルを分類できるマルチラベル分類タスクである。
提案フレームワークは,トップkのセマンティック類似性特許の検索に基づいて,個々の入力特許クラスとサブクラスを予測する。
Design/Methodology/Approach: この研究はAugmented SBERTとRoBERTaに基づくトランスフォーマーモデルを使用します。
我々は、KNNアルゴリズムを用いて、特許クラスまたはサブクラスを予測することにより、特許分類の予測に異なるアプローチを用いる。
また,本研究では,特許請求にのみ焦点をあて,今後の研究では,特許文書の他の適切な部分を追加する。
結果: テキストデータに基づくマルチラベル分類予測におけるハイブリッドモデルの有用性が示唆された。
そこで本研究では,KNNにおける距離関数としてTransformerモデルを用い,拡張SBERTに基づくKNNの新バージョンを提案する。
実用的意味: 提示されたフレームワークは、特許分類の実用的なモデルを提供する。
本研究では,セマンティッククレームの類似性に基づいて,特許のクラスとサブクラスを予測する。
結果のエンドユーザー解釈性は、モデルの本質的な正の点の1つである。
originality/value: この研究の主な貢献は、1) ドメイン内特許クレームデータによるsbertの微調整のための拡張アプローチの使用である。
2)特許分類のためのハイブリッドモデルに基づく結果の改善。
サブクラスレベルでのf1-score の最良の結果は 69%) であり,結果の解釈性が高い実用モデルを提案した。
関連論文リスト
- PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - ClaimBrush: A Novel Framework for Automated Patent Claim Refinement Based on Large Language Models [3.3427063846107825]
ClaimBrushは、データセットと書き換えモデルを含む、自動パテントクレーム改善のための新しいフレームワークである。
本研究は,特許請求書書き換え事例を多数集めて,特許請求書書き換えモデルの訓練と評価のためのデータセットを構築した。
提案する書き換えモデルは,最先端の大規模言語モデルにおいて,ベースラインとゼロショット学習に優れていた。
論文 参考訳(メタデータ) (2024-10-08T00:20:54Z) - A comparative analysis of embedding models for patent similarity [0.0]
本稿では,テキストに基づく特許類似性の分野に2つの貢献をする。
これは、異なる種類の特許固有の事前訓練された埋め込みモデルの性能を比較する。
論文 参考訳(メタデータ) (2024-03-25T11:20:23Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - Towards Better Certified Segmentation via Diffusion Models [62.21617614504225]
セグメンテーションモデルは敵の摂動に弱いため、医療や自動運転といった重要な意思決定システムでの使用を妨げます。
近年,理論的保証を得るためにガウス雑音を入力に加えることにより,セグメント化予測のランダム化が提案されている。
本稿では,ランダムな平滑化と拡散モデルを組み合わせたセグメンテーション予測の問題に対処する。
論文 参考訳(メタデータ) (2023-06-16T16:30:39Z) - Learning Classifiers of Prototypes and Reciprocal Points for Universal
Domain Adaptation [79.62038105814658]
Universal Domainは、ドメインシフトとカテゴリシフトという2つのシフトを処理して、データセット間で知識を転送することを目的としている。
主な課題は、既知のクラス知識の分布をソースからターゲットに適応させながら、未知のターゲットサンプルを正しく識別することである。
既存のほとんどの手法は、まずターゲットが適応した既知の知識を訓練し、次に未知のターゲットサンプルを識別するために単一のしきい値に依存することでこの問題に対処する。
論文 参考訳(メタデータ) (2022-12-16T09:01:57Z) - Parametric Classification for Generalized Category Discovery: A Baseline
Study [70.73212959385387]
Generalized Category Discovery (GCD)は、ラベル付きサンプルから学習した知識を用いて、ラベルなしデータセットで新しいカテゴリを発見することを目的としている。
パラメトリック分類器の故障を調査し,高品質な監視が可能であった場合の過去の設計選択の有効性を検証し,信頼性の低い疑似ラベルを重要課題として同定する。
エントロピー正規化の利点を生かし、複数のGCDベンチマークにおける最先端性能を実現し、未知のクラス数に対して強いロバスト性を示す、単純で効果的なパラメトリック分類法を提案する。
論文 参考訳(メタデータ) (2022-11-21T18:47:11Z) - A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文 参考訳(メタデータ) (2022-04-28T12:04:42Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。