Fugu-MT 論文翻訳(概要): ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs

論文の概要: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs

arxiv url: http://arxiv.org/abs/2407.12193v1
Date: Tue, 16 Jul 2024 21:38:45 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 00:44:25.104051
Title: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
Title（参考訳）: ClaimCompare: 新規破壊型特許ペアの評価のためのデータパイプライン
Authors: Arav Parikh, Shiri Dori-Hacohen,
Abstract要約: 我々は、IRおよびMLモデルのトレーニングに適したラベル付き特許請求データセットを生成するように設計された、新しいデータパイプラインであるCrimCompareを紹介する。私たちの知る限りでは、ClaymCompareは、特許データセットを破壊する新規性を複数生成できる最初のパイプラインです。
参考スコア（独自算出の注目度）: 2.60235825984014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: A fundamental step in the patent application process is the determination of whether there exist prior patents that are novelty destroying. This step is routinely performed by both applicants and examiners, in order to assess the novelty of proposed inventions among the millions of applications filed annually. However, conducting this search is time and labor-intensive, as searchers must navigate complex legal and technical jargon while covering a large amount of legal claims. Automated approaches using information retrieval and machine learning approaches to detect novelty destroying patents present a promising avenue to streamline this process, yet research focusing on this space remains limited. In this paper, we introduce a novel data pipeline, ClaimCompare, designed to generate labeled patent claim datasets suitable for training IR and ML models to address this challenge of novelty destruction assessment. To the best of our knowledge, ClaimCompare is the first pipeline that can generate multiple novelty destroying patent datasets. To illustrate the practical relevance of this pipeline, we utilize it to construct a sample dataset comprising of over 27K patents in the electrochemical domain: 1,045 base patents from USPTO, each associated with 25 related patents labeled according to their novelty destruction towards the base patent. Subsequently, we conduct preliminary experiments showcasing the efficacy of this dataset in fine-tuning transformer models to identify novelty destroying patents, demonstrating 29.2% and 32.7% absolute improvement in MRR and P@1, respectively.
Abstract（参考訳）: 特許出願プロセスの基本的なステップは、新規性を破壊する先行する特許が存在するかどうかを判断することである。このステップは、毎年提出される数百万の出願のうち、提案された発明の新規性を評価するために、申請者および審査官の両方が定期的に実施する。しかし、この捜索は時間と労働集約的であり、捜索者は大量の法的主張をカバーしながら、複雑な法的および技術的用語をナビゲートしなければならない。情報検索と機械学習による新規性破壊特許の検出による自動アプローチは、このプロセスを合理化するための有望な道のりを示すが、この分野に焦点を絞る研究は限られている。本稿では,このノベルティ破壊評価の課題に対処するために,IRおよびMLモデルのトレーニングに適したラベル付き特許請求データセットを生成するために設計された,新しいデータパイプラインであるClimCompareを紹介する。私たちの知る限りでは、ClaymCompareは、特許データセットを破壊する新規性を複数生成できる最初のパイプラインです。このパイプラインの実用的関連性を説明するために、我々は、電気化学領域における27K以上の特許からなるサンプルデータセットを構築するために、USPTOの1,045のベース特許、それぞれが、ベース特許に対する新たな破壊に従ってラベル付けされた25の関連特許に関連付けられている。その後、我々は、このデータセットを微調整トランスフォーマーモデルで示す予備実験を行い、新規性破壊特許を識別し、それぞれMRRとP@1において29.2%と32.7%の絶対的な改善を示す。

関連論文リスト

PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination [44.74519851862391]
PANORAMAは米国特許試験記録8,143件のデータセットである。我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
論文参考訳（メタデータ） (2025-10-25T03:24:13Z)
PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims [13.242188189150987]
PEDANTICは14万件の米国特許権主張のデータセットで、不確定性の理由が指摘されている。人間の検証研究は、高品質なアノテーションを生成する際のパイプラインの正確性を確認する。 PEDANTICは特許AI研究者に貴重なリソースを提供し、高度な検査モデルの開発を可能にする。
論文参考訳（メタデータ） (2025-05-27T15:34:39Z)
Towards Better Evaluation for Generated Patent Claims [0.0]
我々は特許請求を評価するための最初の総合的なベンチマークであるPatent-CEを紹介する。また,特許請求に特化して設計された多次元評価手法であるPatClaimEvalを提案する。本研究は,自動特許クレーム生成システムのより正確な評価の基礎となる。
論文参考訳（メタデータ） (2025-05-16T10:27:16Z)
The Tenth NTIRE 2025 Efficient Super-Resolution Challenge Report [170.81876816944754]
NTIRE 2025 Challenge on Single-Image Efficient Super-Resolution (ESR)は、主要な計算メトリクスを最適化するモデルの開発を進めることを目的としている。本稿では,最先端のシングルイメージESR技術における画期的な進歩を強調し,これらの手法と成果を慎重に分析する。
論文参考訳（メタデータ） (2025-04-14T20:18:21Z)
Dataset Protection via Watermarked Canaries in Retrieval-Augmented LLMs [67.0310240737424]
本稿では,テキストデータセットの所有権を保護し,RA-LLMによる不正使用を効果的に検出するための新しいアプローチを提案する。提案手法では,IPデータセットに特別に設計されたカナリア文書を挿入することにより,元のデータを完全に変更することなく保護する。検出プロセス中、カナリア文書をクエリし、RA-LLMの応答を分析することにより、不正使用を識別する。
論文参考訳（メタデータ） (2025-02-15T04:56:45Z)
Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art [5.655276956391884]
本稿では,特許の新規性を評価するための大規模言語モデル(LLM)の能力を評価することで,新たな課題を提起する。本研究は,特許試験事例から得られた新規性評価に特化して設計された最初のデータセットについて述べる。本研究は, 分類モデルが新規性を効果的に評価するのに苦慮する一方で, 生成モデルは合理的な精度で予測を行うことを示した。
論文参考訳（メタデータ） (2025-02-10T10:09:29Z)
Intelligent System for Automated Molecular Patent Infringement Assessment [38.48937966447085]
PatentFinderは、特許侵害のための小さな分子を正確かつ包括的に評価できる、新しいマルチエージェントおよびツール強化インテリジェンスシステムである。 PatentFinderは、特許請求と分子構造を協調的に分析する5つの特殊エージェントを備えている。 PatentFinderは、詳細かつ解釈可能な特許侵害報告を自律的に生成し、精度の向上と解釈可能性の向上を示す。
論文参考訳（メタデータ） (2024-12-10T12:14:38Z)
CopyrightShield: Spatial Similarity Guided Backdoor Defense against Copyright Infringement in Diffusion Models [61.06621533874629]
拡散モデルは著作権侵害の標的だ本稿では拡散モデルにおける複製の空間的類似性を詳細に解析する。本稿では,著作権侵害攻撃を対象とする新たな防衛手法を提案する。
論文参考訳（メタデータ） (2024-12-02T14:19:44Z)
PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文参考訳（メタデータ） (2024-11-20T17:23:40Z)
Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文参考訳（メタデータ） (2024-09-04T14:26:58Z)
Structural Representation Learning and Disentanglement for Evidential Chinese Patent Approval Prediction [19.287231890434718]
本稿では,検索に基づく分類手法を用いて,本課題の先駆的取り組みについて述べる。本稿では,構造表現学習と絡み合いに着目したDiSPatという新しいフレームワークを提案する。弊社のフレームワークは、特許承認の予測に関する最先端のベースラインを超越し、明確性の向上も示している。
論文参考訳（メタデータ） (2024-08-23T05:44:16Z)
Randomization Techniques to Mitigate the Risk of Copyright Infringement [48.75580082851766]
著作権保護の現在の慣行を補完する潜在的なランダム化手法について検討する。これは、著作権の先例において実質的な類似性を決定する規則の固有の曖昧さによって動機付けられている。差分プライバシーのような同様にランダム化されたアプローチは、プライバシーリスクを軽減することに成功している。
論文参考訳（メタデータ） (2024-08-21T20:55:00Z)
Automated Neural Patent Landscaping in the Small Data Regime [6.284464997330885]
近年の特許活動の急速な拡大により、効率的かつ効果的な自動的特許造成アプローチの必要性が高まっている。本稿では, 難解な事例に対して, 性能を著しく向上させる, 自動型ニューラルネットワーク特許造園システムを提案する。
論文参考訳（メタデータ） (2024-07-10T19:13:37Z)
A Comprehensive Survey on AI-based Methods for Patents [14.090575139188422]
AIベースのツールは、特許サイクルにおける重要なタスクを合理化し、強化する機会を提供する。この学際的な調査は、AIと特許分析の交差点で働く研究者や実践者のリソースとして機能することを目的としている。
論文参考訳（メタデータ） (2024-04-02T20:44:06Z)
Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文参考訳（メタデータ） (2024-03-27T15:15:14Z)
PaECTER: Patent-level Representation Learning using Citation-informed Transformers [0.16785092703248325]
PaECTERは、特許に特有のオープンソースドキュメントレベルのエンコーダである。我々は,特許文書の数値表現を生成するために,受験者による引用情報付き特許用BERTを微調整する。 PaECTERは、特許ドメインで使用されている現在の最先端モデルよりも類似性タスクが優れている。
論文参考訳（メタデータ） (2024-02-29T18:09:03Z)
Unveiling Black-boxes: Explainable Deep Learning Models for Patent Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文参考訳（メタデータ） (2023-10-31T14:11:37Z)
Towards a Complete Metamorphic Testing Pipeline [56.75969180129005]
システムアンダーテスト(SUT)の連続実行における入出力ペア間の関係を調べてテストオラクル問題に対処するメタモルフィックテスト(MT) これらの関係は、メタモルフィック関係 (MRs) と呼ばれ、特定の入力変化に起因する期待される出力変化を規定する。本研究の目的は,MR の生成,制約の定義,MR 結果の説明可能性の提供を支援する手法とツールの開発である。
論文参考訳（メタデータ） (2023-09-30T10:49:22Z)
A Survey on Sentence Embedding Models Performance for Patent Analysis [0.0]
本稿では,PatentSBERTaアプローチに基づく埋め込みモデルの精度を評価するための標準ライブラリとデータセットを提案する。 patentSBERTa, Bert-for-patents, and TF-IDF Weighted Word Embeddings is the most accuracy for computing sentence embeddeds at the subclass level。
論文参考訳（メタデータ） (2022-04-28T12:04:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。