論文の概要: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
- arxiv url: http://arxiv.org/abs/2407.12193v1
- Date: Tue, 16 Jul 2024 21:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:46:09.746654
- Title: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
- Title(参考訳): ClaimCompare: 新規破壊型特許ペアの評価のためのデータパイプライン
- Authors: Arav Parikh, Shiri Dori-Hacohen,
- Abstract要約: 我々は、IRおよびMLモデルのトレーニングに適したラベル付き特許請求データセットを生成するように設計された、新しいデータパイプラインであるCrimCompareを紹介する。
私たちの知る限りでは、ClaymCompareは、特許データセットを破壊する新規性を複数生成できる最初のパイプラインです。
- 参考スコア(独自算出の注目度): 2.60235825984014
- License:
- Abstract: A fundamental step in the patent application process is the determination of whether there exist prior patents that are novelty destroying. This step is routinely performed by both applicants and examiners, in order to assess the novelty of proposed inventions among the millions of applications filed annually. However, conducting this search is time and labor-intensive, as searchers must navigate complex legal and technical jargon while covering a large amount of legal claims. Automated approaches using information retrieval and machine learning approaches to detect novelty destroying patents present a promising avenue to streamline this process, yet research focusing on this space remains limited. In this paper, we introduce a novel data pipeline, ClaimCompare, designed to generate labeled patent claim datasets suitable for training IR and ML models to address this challenge of novelty destruction assessment. To the best of our knowledge, ClaimCompare is the first pipeline that can generate multiple novelty destroying patent datasets. To illustrate the practical relevance of this pipeline, we utilize it to construct a sample dataset comprising of over 27K patents in the electrochemical domain: 1,045 base patents from USPTO, each associated with 25 related patents labeled according to their novelty destruction towards the base patent. Subsequently, we conduct preliminary experiments showcasing the efficacy of this dataset in fine-tuning transformer models to identify novelty destroying patents, demonstrating 29.2% and 32.7% absolute improvement in MRR and P@1, respectively.
- Abstract(参考訳): 特許出願プロセスの基本的なステップは、新規性を破壊する先行する特許が存在するかどうかを判断することである。
このステップは、毎年提出される数百万の出願のうち、提案された発明の新規性を評価するために、申請者および審査官の両方が定期的に実施する。
しかし、この捜索は時間と労働集約的であり、捜索者は大量の法的主張をカバーしながら、複雑な法的および技術的用語をナビゲートしなければならない。
情報検索と機械学習による新規性破壊特許の検出による自動アプローチは、このプロセスを合理化するための有望な道のりを示すが、この分野に焦点を絞る研究は限られている。
本稿では,このノベルティ破壊評価の課題に対処するために,IRおよびMLモデルのトレーニングに適したラベル付き特許請求データセットを生成するために設計された,新しいデータパイプラインであるClimCompareを紹介する。
私たちの知る限りでは、ClaymCompareは、特許データセットを破壊する新規性を複数生成できる最初のパイプラインです。
このパイプラインの実用的関連性を説明するために、我々は、電気化学領域における27K以上の特許からなるサンプルデータセットを構築するために、USPTOの1,045のベース特許、それぞれが、ベース特許に対する新たな破壊に従ってラベル付けされた25の関連特許に関連付けられている。
その後、我々は、このデータセットを微調整トランスフォーマーモデルで示す予備実験を行い、新規性破壊特許を識別し、それぞれMRRとP@1において29.2%と32.7%の絶対的な改善を示す。
関連論文リスト
- PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Structural Representation Learning and Disentanglement for Evidential Chinese Patent Approval Prediction [19.287231890434718]
本稿では,検索に基づく分類手法を用いて,本課題の先駆的取り組みについて述べる。
本稿では,構造表現学習と絡み合いに着目したDiSPatという新しいフレームワークを提案する。
弊社のフレームワークは、特許承認の予測に関する最先端のベースラインを超越し、明確性の向上も示している。
論文 参考訳(メタデータ) (2024-08-23T05:44:16Z) - Randomization Techniques to Mitigate the Risk of Copyright Infringement [48.75580082851766]
著作権保護の現在の慣行を補完する潜在的なランダム化手法について検討する。
これは、著作権の先例において実質的な類似性を決定する規則の固有の曖昧さによって動機付けられている。
差分プライバシーのような同様にランダム化されたアプローチは、プライバシーリスクを軽減することに成功している。
論文 参考訳(メタデータ) (2024-08-21T20:55:00Z) - Automated Neural Patent Landscaping in the Small Data Regime [6.284464997330885]
近年の特許活動の急速な拡大により、効率的かつ効果的な自動的特許造成アプローチの必要性が高まっている。
本稿では, 難解な事例に対して, 性能を著しく向上させる, 自動型ニューラルネットワーク特許造園システムを提案する。
論文 参考訳(メタデータ) (2024-07-10T19:13:37Z) - A Comprehensive Survey on AI-based Methods for Patents [14.090575139188422]
AIベースのツールは、特許サイクルにおける重要なタスクを合理化し、強化する機会を提供する。
この学際的な調査は、AIと特許分析の交差点で働く研究者や実践者のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2024-04-02T20:44:06Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - Towards a Complete Metamorphic Testing Pipeline [56.75969180129005]
システムアンダーテスト(SUT)の連続実行における入出力ペア間の関係を調べてテストオラクル問題に対処するメタモルフィックテスト(MT)
これらの関係は、メタモルフィック関係 (MRs) と呼ばれ、特定の入力変化に起因する期待される出力変化を規定する。
本研究の目的は,MR の生成,制約の定義,MR 結果の説明可能性の提供を支援する手法とツールの開発である。
論文 参考訳(メタデータ) (2023-09-30T10:49:22Z) - A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文 参考訳(メタデータ) (2022-04-28T12:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。