論文の概要: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims
- arxiv url: http://arxiv.org/abs/2505.19345v2
- Date: Tue, 16 Sep 2025 06:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 15:46:32.700435
- Title: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims
- Title(参考訳): PatentScore: LLM生成特許の多次元評価
- Authors: Yongmin Yoo, Qiongkai Xu, Longbing Cao,
- Abstract要約: 特許請求書、医療記録、技術報告などの高額なテキストは構造的に複雑であり、高い信頼性と精度を要求する。
従来の自然言語生成(NLG)メトリクスは汎用文書に有効であるが、複雑なハイテイク文書を評価するのに必要な構造的・法的特徴を捉えることができない。
本稿では,最も複雑で厳密なドメインの1つに特化して設計された多次元評価フレームワークであるPatentScoreを提案する。
- 参考スコア(独自算出の注目度): 35.13558856456741
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-stakes texts such as patent claims, medical records, and technical reports are structurally complex and demand a high degree of reliability and precision. While large language models (LLMs) have recently been applied to automate their generation in high-stakes domains, reliably evaluating such outputs remains a major challenge. Conventional natural language generation (NLG) metrics are effective for generic documents but fail to capture the structural and legal characteristics essential to evaluating complex high-stakes documents. To address this gap, we propose PatentScore, a multi-dimensional evaluation framework specifically designed for one of the most intricate and rigorous domains, patent claims. PatentScore integrates hierarchical decomposition of claim elements, validation patterns grounded in legal and technical standards, and scoring across structural, semantic, and legal dimensions. In experiments on our dataset which consists of 400 Claim1, PatentScore achieved the highest correlation with expert annotations ($r = 0.819$), significantly outperforming widely used NLG metrics. This work establishes a new standard for evaluating LLM-generated patent claims, providing a solid foundation for research on patent generation and validation.
- Abstract(参考訳): 特許請求書、医療記録、技術報告などの高額なテキストは構造的に複雑であり、高い信頼性と精度を要求する。
大規模言語モデル (LLM) は近年, ハイテイク領域における生成の自動化に応用されているが, このような出力を確実に評価することは大きな課題である。
従来の自然言語生成(NLG)メトリクスは汎用文書に有効であるが、複雑なハイテイク文書を評価するのに必要な構造的・法的特徴を捉えることができない。
このギャップに対処するために、最も複雑で厳密なドメインの1つに特化して設計された多次元評価フレームワークであるPatentScoreを提案する。
PatentScoreは、請求要素の階層的な分解、法的および技術的基準に根ざした検証パターン、そして構造的、意味的、法的次元にまたがるスコアを統合している。
400 Claim1からなるデータセットの実験において、PhilipsScoreは専門家のアノテーション(r = 0.819$)と最も高い相関を達成し、広く使用されているNLG指標よりも大幅に優れています。
この研究は、LCM生成特許請求書を評価するための新しい標準を確立し、特許生成と検証に関する研究の確かな基盤を提供する。
関連論文リスト
- PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs [2.9141392786940057]
本稿では,大規模言語モデル(LLM)を活用して特許作成のパラダイムシフトを実現することを目的とする。
PATENTWRITER は,特許抽象生成において LLM を評価するための最初の統一ベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-07-30T05:17:35Z) - PatentMind: A Multi-Aspect Reasoning Graph for Patent Similarity Evaluation [32.272839191711114]
マルチアスペクト推論グラフ(MARG)に基づく特許類似性評価のための新しいフレームワークであるPatentMindを紹介する。
PatentMindは、特許を技術機能、アプリケーションドメイン、クレームスコープの3つのコアディメンションに分解して、ディメンション固有の類似度スコアを計算する。
評価を支援するため,500組の特許ペアからなる人為的注釈付きベンチマークであるPatentSimBenchを構築した。
論文 参考訳(メタデータ) (2025-05-25T22:28:27Z) - Towards Better Evaluation for Generated Patent Claims [0.0]
我々は特許請求を評価するための最初の総合的なベンチマークであるPatent-CEを紹介する。
また,特許請求に特化して設計された多次元評価手法であるPatClaimEvalを提案する。
本研究は,自動特許クレーム生成システムのより正確な評価の基礎となる。
論文 参考訳(メタデータ) (2025-05-16T10:27:16Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art [5.655276956391884]
本稿では,特許の新規性を評価するための大規模言語モデル(LLM)の能力を評価することで,新たな課題を提起する。
本研究は,特許試験事例から得られた新規性評価に特化して設計された最初のデータセットについて述べる。
本研究は, 分類モデルが新規性を効果的に評価するのに苦慮する一方で, 生成モデルは合理的な精度で予測を行うことを示した。
論文 参考訳(メタデータ) (2025-02-10T10:09:29Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Patent-CR: A Dataset for Patent Claim Revision [0.0]
本稿では,特許請求書修正作業のために作成された最初のデータセットであるPatent-CRについて述べる。
これには、特許審査官によって拒絶された初期特許出願と、最終認可版の両方が含まれる。
論文 参考訳(メタデータ) (2024-12-03T16:43:42Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。