論文の概要: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
- arxiv url: http://arxiv.org/abs/2407.12193v1
- Date: Tue, 16 Jul 2024 21:38:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-10 19:46:09.746654
- Title: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
- Title(参考訳): ClaimCompare: 新規破壊型特許ペアの評価のためのデータパイプライン
- Authors: Arav Parikh, Shiri Dori-Hacohen,
- Abstract要約: 我々は、IRおよびMLモデルのトレーニングに適したラベル付き特許請求データセットを生成するように設計された、新しいデータパイプラインであるCrimCompareを紹介する。
私たちの知る限りでは、ClaymCompareは、特許データセットを破壊する新規性を複数生成できる最初のパイプラインです。
- 参考スコア(独自算出の注目度): 2.60235825984014
- License:
- Abstract: A fundamental step in the patent application process is the determination of whether there exist prior patents that are novelty destroying. This step is routinely performed by both applicants and examiners, in order to assess the novelty of proposed inventions among the millions of applications filed annually. However, conducting this search is time and labor-intensive, as searchers must navigate complex legal and technical jargon while covering a large amount of legal claims. Automated approaches using information retrieval and machine learning approaches to detect novelty destroying patents present a promising avenue to streamline this process, yet research focusing on this space remains limited. In this paper, we introduce a novel data pipeline, ClaimCompare, designed to generate labeled patent claim datasets suitable for training IR and ML models to address this challenge of novelty destruction assessment. To the best of our knowledge, ClaimCompare is the first pipeline that can generate multiple novelty destroying patent datasets. To illustrate the practical relevance of this pipeline, we utilize it to construct a sample dataset comprising of over 27K patents in the electrochemical domain: 1,045 base patents from USPTO, each associated with 25 related patents labeled according to their novelty destruction towards the base patent. Subsequently, we conduct preliminary experiments showcasing the efficacy of this dataset in fine-tuning transformer models to identify novelty destroying patents, demonstrating 29.2% and 32.7% absolute improvement in MRR and P@1, respectively.
- Abstract(参考訳): 特許出願プロセスの基本的なステップは、新規性を破壊する先行する特許が存在するかどうかを判断することである。
このステップは、毎年提出される数百万の出願のうち、提案された発明の新規性を評価するために、申請者および審査官の両方が定期的に実施する。
しかし、この捜索は時間と労働集約的であり、捜索者は大量の法的主張をカバーしながら、複雑な法的および技術的用語をナビゲートしなければならない。
情報検索と機械学習による新規性破壊特許の検出による自動アプローチは、このプロセスを合理化するための有望な道のりを示すが、この分野に焦点を絞る研究は限られている。
本稿では,このノベルティ破壊評価の課題に対処するために,IRおよびMLモデルのトレーニングに適したラベル付き特許請求データセットを生成するために設計された,新しいデータパイプラインであるClimCompareを紹介する。
私たちの知る限りでは、ClaymCompareは、特許データセットを破壊する新規性を複数生成できる最初のパイプラインです。
このパイプラインの実用的関連性を説明するために、我々は、電気化学領域における27K以上の特許からなるサンプルデータセットを構築するために、USPTOの1,045のベース特許、それぞれが、ベース特許に対する新たな破壊に従ってラベル付けされた25の関連特許に関連付けられている。
その後、我々は、このデータセットを微調整トランスフォーマーモデルで示す予備実験を行い、新規性破壊特許を識別し、それぞれMRRとP@1において29.2%と32.7%の絶対的な改善を示す。
関連論文リスト
- Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。
提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。
検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文 参考訳(メタデータ) (2025-02-15T04:56:45Z) - Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art [5.655276956391884]
本稿では,特許の新規性を評価するための大規模言語モデル(LLM)の能力を評価することで,新たな課題を提起する。
本研究は,特許試験事例から得られた新規性評価に特化して設計された最初のデータセットについて述べる。
本研究は, 分類モデルが新規性を効果的に評価するのに苦慮する一方で, 生成モデルは合理的な精度で予測を行うことを示した。
論文 参考訳(メタデータ) (2025-02-10T10:09:29Z) - Intelligent System for Automated Molecular Patent Infringement Assessment [38.48937966447085]
PatentFinderは、特許侵害のための小さな分子を正確かつ包括的に評価できる、新しいマルチエージェントおよびツール強化インテリジェンスシステムである。
PatentFinderは、特許請求と分子構造を協調的に分析する5つの特殊エージェントを備えている。
PatentFinderは、詳細かつ解釈可能な特許侵害報告を自律的に生成し、精度の向上と解釈可能性の向上を示す。
論文 参考訳(メタデータ) (2024-12-10T12:14:38Z) - CopyrightShield: Spatial Similarity Guided Backdoor Defense against Copyright Infringement in Diffusion Models [61.06621533874629]
拡散モデルは 著作権侵害の標的だ
本稿では拡散モデルにおける複製の空間的類似性を詳細に解析する。
本稿では,著作権侵害攻撃を対象とする新たな防衛手法を提案する。
論文 参考訳(メタデータ) (2024-12-02T14:19:44Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - Structural Representation Learning and Disentanglement for Evidential Chinese Patent Approval Prediction [19.287231890434718]
本稿では,検索に基づく分類手法を用いて,本課題の先駆的取り組みについて述べる。
本稿では,構造表現学習と絡み合いに着目したDiSPatという新しいフレームワークを提案する。
弊社のフレームワークは、特許承認の予測に関する最先端のベースラインを超越し、明確性の向上も示している。
論文 参考訳(メタデータ) (2024-08-23T05:44:16Z) - Randomization Techniques to Mitigate the Risk of Copyright Infringement [48.75580082851766]
著作権保護の現在の慣行を補完する潜在的なランダム化手法について検討する。
これは、著作権の先例において実質的な類似性を決定する規則の固有の曖昧さによって動機付けられている。
差分プライバシーのような同様にランダム化されたアプローチは、プライバシーリスクを軽減することに成功している。
論文 参考訳(メタデータ) (2024-08-21T20:55:00Z) - PaECTER: Patent-level Representation Learning using Citation-informed
Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。
我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。
PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文 参考訳(メタデータ) (2024-02-29T18:09:03Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。
patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文 参考訳(メタデータ) (2022-04-28T12:04:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。