論文の概要: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims
- arxiv url: http://arxiv.org/abs/2505.19345v2
- Date: Tue, 16 Sep 2025 06:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.700435
- Title: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims
- Title(参考訳): PatentScore: LLM生成特許の多次元評価
- Authors: Yongmin Yoo, Qiongkai Xu, Longbing Cao,
- Abstract要約: 特許請求書、医療記録、技術報告などの高額なテキストは構造的に複雑であり、高い信頼性と精度を要求する。
従来の自然言語生成(NLG)メトリクスは汎用文書に有効であるが、複雑なハイテイク文書を評価するのに必要な構造的・法的特徴を捉えることができない。
本稿では,最も複雑で厳密なドメインの1つに特化して設計された多次元評価フレームワークであるPatentScoreを提案する。
- 参考スコア(独自算出の注目度): 35.13558856456741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-stakes texts such as patent claims, medical records, and technical reports are structurally complex and demand a high degree of reliability and precision. While large language models (LLMs) have recently been applied to automate their generation in high-stakes domains, reliably evaluating such outputs remains a major challenge. Conventional natural language generation (NLG) metrics are effective for generic documents but fail to capture the structural and legal characteristics essential to evaluating complex high-stakes documents. To address this gap, we propose PatentScore, a multi-dimensional evaluation framework specifically designed for one of the most intricate and rigorous domains, patent claims. PatentScore integrates hierarchical decomposition of claim elements, validation patterns grounded in legal and technical standards, and scoring across structural, semantic, and legal dimensions. In experiments on our dataset which consists of 400 Claim1, PatentScore achieved the highest correlation with expert annotations ($r = 0.819$), significantly outperforming widely used NLG metrics. This work establishes a new standard for evaluating LLM-generated patent claims, providing a solid foundation for research on patent generation and validation.
- Abstract(参考訳): 特許請求書、医療記録、技術報告などの高額なテキストは構造的に複雑であり、高い信頼性と精度を要求する。
大規模言語モデル (LLM) は近年, ハイテイク領域における生成の自動化に応用されているが, このような出力を確実に評価することは大きな課題である。
従来の自然言語生成(NLG)メトリクスは汎用文書に有効であるが、複雑なハイテイク文書を評価するのに必要な構造的・法的特徴を捉えることができない。
このギャップに対処するために、最も複雑で厳密なドメインの1つに特化して設計された多次元評価フレームワークであるPatentScoreを提案する。
PatentScoreは、請求要素の階層的な分解、法的および技術的基準に根ざした検証パターン、そして構造的、意味的、法的次元にまたがるスコアを統合している。
400 Claim1からなるデータセットの実験において、PhilipsScoreは専門家のアノテーション(r = 0.819$)と最も高い相関を達成し、広く使用されているNLG指標よりも大幅に優れています。
この研究は、LCM生成特許請求書を評価するための新しい標準を確立し、特許生成と検証に関する研究の確かな基盤を提供する。
関連論文リスト
- Agentic Adversarial QA for Improving Domain-Specific LLMs [53.00642389531106]
大規模言語モデル(LLM)は、しばしば専門分野に効果的に対応するのに苦労する。
本稿では,意味論的課題の集合をコンパクトに生成する逆問題生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-20T10:53:09Z) - Towards Automated Quality Assurance of Patent Specifications: A Multi-Dimensional LLM Framework [0.5534764384104999]
AI草案作成ツールは特許作成において注目されているが、AIが生成する特許内容の品質の体系的評価は、重要な研究ギャップを示している。
本稿では,規制コンプライアンス,技術的コヒーレンス,図形参照整合性検出モジュールを用いた特許評価を提案する。
このフレームワークは、2つの特許草案作成ツールから80人の人間が認可し、80人のAIが生成する特許からなる包括的なデータセットで検証されている。
論文 参考訳(メタデータ) (2025-10-29T11:20:18Z) - PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination [44.74519851862391]
PANORAMAは米国特許試験記録8,143件のデータセットである。
我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。
我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
論文 参考訳(メタデータ) (2025-10-25T03:24:13Z) - ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs [2.9141392786940057]
本稿では,大規模言語モデル(LLM)を活用して特許作成のパラダイムシフトを実現することを目的とする。
PATENTWRITER は,特許抽象生成において LLM を評価するための最初の統一ベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-07-30T05:17:35Z) - PatentMind: A Multi-Aspect Reasoning Graph for Patent Similarity Evaluation [32.272839191711114]
マルチアスペクト推論グラフ(MARG)に基づく特許類似性評価のための新しいフレームワークであるPatentMindを紹介する。
PatentMindは、特許を技術機能、アプリケーションドメイン、クレームスコープの3つのコアディメンションに分解して、ディメンション固有の類似度スコアを計算する。
評価を支援するため,500組の特許ペアからなる人為的注釈付きベンチマークであるPatentSimBenchを構築した。
論文 参考訳(メタデータ) (2025-05-25T22:28:27Z) - Enriching Patent Claim Generation with European Patent Dataset [2.0270237738043906]
欧州特許データセットであるEPDを導入する。EPDは、請求書生成を含む特許関連タスクをサポートするために、リッチテキストデータと構造化メタデータを提供する。
EPDは、より包括的な評価を可能にするための欧州特許のベンチマークを提供することで、重大なギャップを埋める。
実験の結果、EPDで微調整されたLCMは、以前のデータセットやGPT-4oのクレーム品質やドメイン間の一般化よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-05-18T23:04:49Z) - Towards Better Evaluation for Generated Patent Claims [0.0]
我々は特許請求を評価するための最初の総合的なベンチマークであるPatent-CEを紹介する。
また,特許請求に特化して設計された多次元評価手法であるPatClaimEvalを提案する。
本研究は,自動特許クレーム生成システムのより正確な評価の基礎となる。
論文 参考訳(メタデータ) (2025-05-16T10:27:16Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art [5.655276956391884]
本稿では,特許の新規性を評価するための大規模言語モデル(LLM)の能力を評価することで,新たな課題を提起する。
本研究は,特許試験事例から得られた新規性評価に特化して設計された最初のデータセットについて述べる。
本研究は, 分類モデルが新規性を効果的に評価するのに苦慮する一方で, 生成モデルは合理的な精度で予測を行うことを示した。
論文 参考訳(メタデータ) (2025-02-10T10:09:29Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Patent-CR: A Dataset for Patent Claim Revision [0.0]
本稿では,特許請求書修正作業のために作成された最初のデータセットであるPatent-CRについて述べる。
これには、特許審査官によって拒絶された初期特許出願と、最終認可版の両方が含まれる。
論文 参考訳(メタデータ) (2024-12-03T16:43:42Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。