論文の概要: Enriching Patent Claim Generation with European Patent Dataset
- arxiv url: http://arxiv.org/abs/2505.12568v1
- Date: Sun, 18 May 2025 23:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.312027
- Title: Enriching Patent Claim Generation with European Patent Dataset
- Title(参考訳): 欧州特許データセットによる特許クレーム生成の強化
- Authors: Lekang Jiang, Chengzu Li, Stephan Goetz,
- Abstract要約: 欧州特許データセットであるEPDを導入する。EPDは、請求書生成を含む特許関連タスクをサポートするために、リッチテキストデータと構造化メタデータを提供する。
EPDは、より包括的な評価を可能にするための欧州特許のベンチマークを提供することで、重大なギャップを埋める。
実験の結果、EPDで微調整されたLCMは、以前のデータセットやGPT-4oのクレーム品質やドメイン間の一般化よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 2.0270237738043906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Drafting patent claims is time-intensive, costly, and requires professional skill. Therefore, researchers have investigated large language models (LLMs) to assist inventors in writing claims. However, existing work has largely relied on datasets from the United States Patent and Trademark Office (USPTO). To enlarge research scope regarding various jurisdictions, drafting conventions, and legal standards, we introduce EPD, a European patent dataset. EPD presents rich textual data and structured metadata to support multiple patent-related tasks, including claim generation. This dataset enriches the field in three critical aspects: (1) Jurisdictional diversity: Patents from different offices vary in legal and drafting conventions. EPD fills a critical gap by providing a benchmark for European patents to enable more comprehensive evaluation. (2) Quality improvement: EPD offers high-quality granted patents with finalized and legally approved texts, whereas others consist of patent applications that are unexamined or provisional. Experiments show that LLMs fine-tuned on EPD significantly outperform those trained on previous datasets and even GPT-4o in claim quality and cross-domain generalization. (3) Real-world simulation: We propose a difficult subset of EPD to better reflect real-world challenges of claim generation. Results reveal that all tested LLMs perform substantially worse on these challenging samples, which highlights the need for future research.
- Abstract(参考訳): 特許請求書の提出には時間を要するし、費用もかかるし、専門的なスキルも必要だ。
そのため、研究者は発明者を支援するために大規模な言語モデル(LLM)を調査してきた。
しかし、既存の研究は米国特許商標庁(USPTO)のデータセットに大きく依存している。
さまざまな管轄区域,起草規則,法的基準に関する研究範囲を拡大するため,欧州特許データセットであるEPDを導入する。
EPDはリッチテキストデータと構造化メタデータを提供し、クレーム生成を含む複数の特許関連タスクをサポートする。
このデータセットは、(1)法的な多様性:異なるオフィスからの特許は、法律や起草の慣例によって異なる。
EPDは、より包括的な評価を可能にするための欧州特許のベンチマークを提供することで、重大なギャップを埋める。
2) 品質改善: EPDは、最終的かつ法的に承認された文書を含む高品質の特許を提供する一方、その他の特許出願は、未審査又は仮のものである。
実験の結果、EPDで微調整されたLCMは、以前のデータセットやGPT-4oのクレーム品質やドメイン間の一般化よりも大幅に優れていた。
(3) 実世界のシミュレーション: クレーム生成における現実の課題をよりよく反映するために, EPD の難解なサブセットを提案する。
その結果、全てのLLMはこれらの挑戦的なサンプルに対して著しく悪化しており、将来の研究の必要性を浮き彫りにしている。
関連論文リスト
- Towards Better Evaluation for Generated Patent Claims [0.0]
我々は特許請求を評価するための最初の総合的なベンチマークであるPatent-CEを紹介する。
また,特許請求に特化して設計された多次元評価手法であるPatClaimEvalを提案する。
本研究は,自動特許クレーム生成システムのより正確な評価の基礎となる。
論文 参考訳(メタデータ) (2025-05-16T10:27:16Z) - Patent-CR: A Dataset for Patent Claim Revision [0.0]
本稿では,特許請求書修正作業のために作成された最初のデータセットであるPatent-CRについて述べる。
これには、特許審査官によって拒絶された初期特許出願と、最終認可版の両方が含まれる。
論文 参考訳(メタデータ) (2024-12-03T16:43:42Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - Enhancing Legal Case Retrieval via Scaling High-quality Synthetic Query-Candidate Pairs [67.54302101989542]
判例検索は、ある事実記述の参照として類似した事例を提供することを目的としている。
既存の作業は主に、長いクエリを使ったケース・ツー・ケースの検索に重点を置いている。
データスケールは、既存のデータハングリーニューラルネットワークのトレーニング要件を満たすには不十分である。
論文 参考訳(メタデータ) (2024-10-09T06:26:39Z) - Can Large Language Models Generate High-quality Patent Claims? [0.7535435234862548]
大規模言語モデル(LLM)は、様々なテキスト生成タスクで例外的なパフォーマンスを示している。
本稿では,特許クレーム生成における現在のLCMの性能を評価するためのデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-27T18:07:40Z) - InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Unveiling Black-boxes: Explainable Deep Learning Models for Patent
Classification [48.5140223214582]
深部不透明ニューラルネットワーク(DNN)を利用した多ラベル特許分類のための最先端手法
レイヤワイド関連伝搬(Layer-wise Relevance propagation, LRP)を導入し, 特許の詳細な分類手法を提案する。
関連性スコアを考慮し、予測された特許クラスに関連する単語を視覚化して説明を生成する。
論文 参考訳(メタデータ) (2023-10-31T14:11:37Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z) - The Harvard USPTO Patent Dataset: A Large-Scale, Well-Structured, and
Multi-Purpose Corpus of Patent Applications [8.110699646062384]
ハーバードUSPTO特許データセット(HUPD)について紹介する。
450万件以上の特許文書があり、HUPDは同等のコーパスの2倍から3倍の大きさだ。
各アプリケーションのメタデータとすべてのテキストフィールドを提供することで、このデータセットは研究者が新しいNLPタスクセットを実行することを可能にする。
論文 参考訳(メタデータ) (2022-07-08T17:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。