Fugu-MT 論文翻訳(概要): PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims

論文の概要: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims

arxiv url: http://arxiv.org/abs/2505.19345v1
Date: Sun, 25 May 2025 22:20:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-27 16:58:43.062889
Title: PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims
Title（参考訳）: PatentScore: LLM生成特許の多次元評価
Authors: Yongmin Yoo, Qiongkai Xu, Longbing Cao,
Abstract要約: LLM生成特許クレームを評価するための多次元評価フレームワークであるPatentScoreを紹介する。汎用的なNLGメトリクスとは異なり、PatentScoreは特許固有の制約や文書構造を反映し、表面的類似性を超えた評価を可能にする。我々はPearsonの相関関係を,エキスパートアノテーションを用いた$r = 0.819$で報告し,既存のNLG指標よりも優れていた。
参考スコア（独自算出の注目度）: 32.272839191711114
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Natural language generation (NLG) metrics play a central role in evaluating generated texts, but are not well suited for the structural and legal characteristics of patent documents. Large language models (LLMs) offer strong potential in automating patent generation, yet research on evaluating LLM-generated patents remains limited, especially in evaluating the generation quality of patent claims, which are central to defining the scope of protection. Effective claim evaluation requires addressing legal validity, technical accuracy, and structural compliance. To address this gap, we introduce PatentScore, a multi-dimensional evaluation framework for assessing LLM-generated patent claims. PatentScore incorporates: (1) hierarchical decomposition for claim analysis; (2) domain-specific validation patterns based on legal and technical standards; and (3) scoring across structural, semantic, and legal dimensions. Unlike general-purpose NLG metrics, PatentScore reflects patent-specific constraints and document structures, enabling evaluation beyond surface similarity. We evaluate 400 GPT-4o-mini generated Claim 1s and report a Pearson correlation of $r = 0.819$ with expert annotations, outperforming existing NLG metrics. Furthermore, we conduct additional evaluations using open models such as Claude-3.5-Haiku and Gemini-1.5-flash, all of which show strong correlations with expert judgments, confirming the robustness and generalizability of our framework.
Abstract（参考訳）: 自然言語生成(NLG)メトリクスは、生成されたテキストを評価する上で中心的な役割を果たすが、特許文書の構造的および法的特性には適していない。大規模言語モデル(LLM)は、特許生成の自動化に強い可能性をもたらすが、LLMが生成する特許の評価に関する研究は、特に保護範囲の定義の中心である特許クレームの生成品質の評価において限られている。効果的なクレーム評価には、法的妥当性、技術的正確性、構造的コンプライアンスに対処する必要がある。このギャップに対処するために、LLM生成特許クレームを評価するための多次元評価フレームワークであるPatentScoreを紹介する。 PatentScoreは、(1)クレーム分析のための階層的な分解、(2)法的および技術的基準に基づくドメイン固有の検証パターン、(3)構造的、意味的、法的次元のスコアリングを含む。汎用的なNLGメトリクスとは異なり、PatentScoreは特許固有の制約や文書構造を反映し、表面的類似性を超えた評価を可能にする。我々は400 GPT-4o-mini Claim 1sを評価し、Pearsonの相関関係をエキスパートアノテーションで報告し、既存のNLG指標より優れていた。さらに,Claude-3.5-Haiku や Gemini-1.5-flash といったオープンモデルを用いて,専門家の判断と強い相関関係を示し,フレームワークの堅牢性と一般化性を確認する。

関連論文リスト

PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs [2.9141392786940057]
本稿では,大規模言語モデル(LLM)を活用して特許作成のパラダイムシフトを実現することを目的とする。 PATENTWRITER は,特許抽象生成において LLM を評価するための最初の統一ベンチマークフレームワークである。
論文参考訳（メタデータ） (2025-07-30T05:17:35Z)
PatentMind: A Multi-Aspect Reasoning Graph for Patent Similarity Evaluation [32.272839191711114]
マルチアスペクト推論グラフ(MARG)に基づく特許類似性評価のための新しいフレームワークであるPatentMindを紹介する。 PatentMindは、特許を技術機能、アプリケーションドメイン、クレームスコープの3つのコアディメンションに分解して、ディメンション固有の類似度スコアを計算する。評価を支援するため,500組の特許ペアからなる人為的注釈付きベンチマークであるPatentSimBenchを構築した。
論文参考訳（メタデータ） (2025-05-25T22:28:27Z)
Towards Better Evaluation for Generated Patent Claims [0.0]
我々は特許請求を評価するための最初の総合的なベンチマークであるPatent-CEを紹介する。また,特許請求に特化して設計された多次元評価手法であるPatClaimEvalを提案する。本研究は,自動特許クレーム生成システムのより正確な評価の基礎となる。
論文参考訳（メタデータ） (2025-05-16T10:27:16Z)
Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文参考訳（メタデータ） (2025-02-26T06:31:45Z)
AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文参考訳（メタデータ） (2025-02-19T05:58:52Z)
Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art [5.655276956391884]
本稿では,特許の新規性を評価するための大規模言語モデル(LLM)の能力を評価することで,新たな課題を提起する。本研究は,特許試験事例から得られた新規性評価に特化して設計された最初のデータセットについて述べる。本研究は, 分類モデルが新規性を効果的に評価するのに苦慮する一方で, 生成モデルは合理的な精度で予測を行うことを示した。
論文参考訳（メタデータ） (2025-02-10T10:09:29Z)
OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。我々のベンチマークは多次元評価フレームワークによって特徴づけられる。実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文参考訳（メタデータ） (2024-12-17T15:38:42Z)
Patent-CR: A Dataset for Patent Claim Revision [0.0]
本稿では,特許請求書修正作業のために作成された最初のデータセットであるPatent-CRについて述べる。これには、特許審査官によって拒絶された初期特許出願と、最終認可版の両方が含まれる。
論文参考訳（メタデータ） (2024-12-03T16:43:42Z)
PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文参考訳（メタデータ） (2024-11-20T17:23:40Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
Adaptive Taxonomy Learning and Historical Patterns Modelling for Patent Classification [26.85734804493925]
本稿では,特許分類に関する特許に関する情報を包括的に検討する統合フレームワークを提案する。まず,その意味表現を導出するためのICC符号相関学習モジュールを提案する。最後に、IPC符号のセマンティクスを含む特許文書の文脈情報と、予測を行うために利用者のシーケンシャルな選好を割り当てる。
論文参考訳（メタデータ） (2023-08-10T07:02:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。