論文の概要: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims
- arxiv url: http://arxiv.org/abs/2505.19345v1
- Date: Sun, 25 May 2025 22:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.062889
- Title: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims
- Title(参考訳): PatentScore: LLM生成特許の多次元評価
- Authors: Yongmin Yoo, Qiongkai Xu, Longbing Cao,
- Abstract要約: LLM生成特許クレームを評価するための多次元評価フレームワークであるPatentScoreを紹介する。
汎用的なNLGメトリクスとは異なり、PatentScoreは特許固有の制約や文書構造を反映し、表面的類似性を超えた評価を可能にする。
我々はPearsonの相関関係を,エキスパートアノテーションを用いた$r = 0.819$で報告し,既存のNLG指標よりも優れていた。
- 参考スコア(独自算出の注目度): 32.272839191711114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language generation (NLG) metrics play a central role in evaluating generated texts, but are not well suited for the structural and legal characteristics of patent documents. Large language models (LLMs) offer strong potential in automating patent generation, yet research on evaluating LLM-generated patents remains limited, especially in evaluating the generation quality of patent claims, which are central to defining the scope of protection. Effective claim evaluation requires addressing legal validity, technical accuracy, and structural compliance. To address this gap, we introduce PatentScore, a multi-dimensional evaluation framework for assessing LLM-generated patent claims. PatentScore incorporates: (1) hierarchical decomposition for claim analysis; (2) domain-specific validation patterns based on legal and technical standards; and (3) scoring across structural, semantic, and legal dimensions. Unlike general-purpose NLG metrics, PatentScore reflects patent-specific constraints and document structures, enabling evaluation beyond surface similarity. We evaluate 400 GPT-4o-mini generated Claim 1s and report a Pearson correlation of $r = 0.819$ with expert annotations, outperforming existing NLG metrics. Furthermore, we conduct additional evaluations using open models such as Claude-3.5-Haiku and Gemini-1.5-flash, all of which show strong correlations with expert judgments, confirming the robustness and generalizability of our framework.
- Abstract(参考訳): 自然言語生成(NLG)メトリクスは、生成されたテキストを評価する上で中心的な役割を果たすが、特許文書の構造的および法的特性には適していない。
大規模言語モデル(LLM)は、特許生成の自動化に強い可能性をもたらすが、LLMが生成する特許の評価に関する研究は、特に保護範囲の定義の中心である特許クレームの生成品質の評価において限られている。
効果的なクレーム評価には、法的妥当性、技術的正確性、構造的コンプライアンスに対処する必要がある。
このギャップに対処するために、LLM生成特許クレームを評価するための多次元評価フレームワークであるPatentScoreを紹介する。
PatentScoreは、(1)クレーム分析のための階層的な分解、(2)法的および技術的基準に基づくドメイン固有の検証パターン、(3)構造的、意味的、法的次元のスコアリングを含む。
汎用的なNLGメトリクスとは異なり、PatentScoreは特許固有の制約や文書構造を反映し、表面的類似性を超えた評価を可能にする。
我々は400 GPT-4o-mini Claim 1sを評価し、Pearsonの相関関係をエキスパートアノテーションで報告し、既存のNLG指標より優れていた。
さらに,Claude-3.5-Haiku や Gemini-1.5-flash といったオープンモデルを用いて,専門家の判断と強い相関関係を示し,フレームワークの堅牢性と一般化性を確認する。
関連論文リスト
- Agentic Adversarial QA for Improving Domain-Specific LLMs [53.00642389531106]
大規模言語モデル(LLM)は、しばしば専門分野に効果的に対応するのに苦労する。
本稿では,意味論的課題の集合をコンパクトに生成する逆問題生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-20T10:53:09Z) - Towards Automated Quality Assurance of Patent Specifications: A Multi-Dimensional LLM Framework [0.5534764384104999]
AI草案作成ツールは特許作成において注目されているが、AIが生成する特許内容の品質の体系的評価は、重要な研究ギャップを示している。
本稿では,規制コンプライアンス,技術的コヒーレンス,図形参照整合性検出モジュールを用いた特許評価を提案する。
このフレームワークは、2つの特許草案作成ツールから80人の人間が認可し、80人のAIが生成する特許からなる包括的なデータセットで検証されている。
論文 参考訳(メタデータ) (2025-10-29T11:20:18Z) - PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination [44.74519851862391]
PANORAMAは米国特許試験記録8,143件のデータセットである。
我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。
我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
論文 参考訳(メタデータ) (2025-10-25T03:24:13Z) - ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs [2.9141392786940057]
本稿では,大規模言語モデル(LLM)を活用して特許作成のパラダイムシフトを実現することを目的とする。
PATENTWRITER は,特許抽象生成において LLM を評価するための最初の統一ベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-07-30T05:17:35Z) - PatentMind: A Multi-Aspect Reasoning Graph for Patent Similarity Evaluation [32.272839191711114]
マルチアスペクト推論グラフ(MARG)に基づく特許類似性評価のための新しいフレームワークであるPatentMindを紹介する。
PatentMindは、特許を技術機能、アプリケーションドメイン、クレームスコープの3つのコアディメンションに分解して、ディメンション固有の類似度スコアを計算する。
評価を支援するため,500組の特許ペアからなる人為的注釈付きベンチマークであるPatentSimBenchを構築した。
論文 参考訳(メタデータ) (2025-05-25T22:28:27Z) - Enriching Patent Claim Generation with European Patent Dataset [2.0270237738043906]
欧州特許データセットであるEPDを導入する。EPDは、請求書生成を含む特許関連タスクをサポートするために、リッチテキストデータと構造化メタデータを提供する。
EPDは、より包括的な評価を可能にするための欧州特許のベンチマークを提供することで、重大なギャップを埋める。
実験の結果、EPDで微調整されたLCMは、以前のデータセットやGPT-4oのクレーム品質やドメイン間の一般化よりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-05-18T23:04:49Z) - Towards Better Evaluation for Generated Patent Claims [0.0]
我々は特許請求を評価するための最初の総合的なベンチマークであるPatent-CEを紹介する。
また,特許請求に特化して設計された多次元評価手法であるPatClaimEvalを提案する。
本研究は,自動特許クレーム生成システムのより正確な評価の基礎となる。
論文 参考訳(メタデータ) (2025-05-16T10:27:16Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - Scoring Verifiers: Evaluating Synthetic Verification for Code and Reasoning [59.25951947621526]
本稿では,既存の符号化ベンチマークをスコアとランキングデータセットに変換して,合成検証の有効性を評価する手法を提案する。
我々は4つの新しいベンチマーク(HE-R, HE-R+, MBPP-R, MBPP-R+)を公表し, 標準, 推論, 報酬に基づくLCMを用いて合成検証手法を解析した。
実験の結果, 推論はテストケースの生成を著しく改善し, テストケースのスケーリングによって検証精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-02-19T15:32:11Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art [5.655276956391884]
本稿では,特許の新規性を評価するための大規模言語モデル(LLM)の能力を評価することで,新たな課題を提起する。
本研究は,特許試験事例から得られた新規性評価に特化して設計された最初のデータセットについて述べる。
本研究は, 分類モデルが新規性を効果的に評価するのに苦慮する一方で, 生成モデルは合理的な精度で予測を行うことを示した。
論文 参考訳(メタデータ) (2025-02-10T10:09:29Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Patent-CR: A Dataset for Patent Claim Revision [0.0]
本稿では,特許請求書修正作業のために作成された最初のデータセットであるPatent-CRについて述べる。
これには、特許審査官によって拒絶された初期特許出願と、最終認可版の両方が含まれる。
論文 参考訳(メタデータ) (2024-12-03T16:43:42Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。
まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。
最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文 参考訳(メタデータ) (2023-08-10T07:02:24Z) - WiCE: Real-World Entailment for Claims in Wikipedia [63.234352061821625]
We propose WiCE, a new fine-fine textual entailment dataset built on natural claim and evidence pairs from Wikipedia。
標準クレームレベルのエンターメントに加えて、WiCEはクレームのサブ文単位に対するエンターメント判断を提供する。
我々のデータセットの真のクレームは、既存のモデルで対処できない検証と検索の問題に挑戦することを含んでいる。
論文 参考訳(メタデータ) (2023-03-02T17:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。