論文の概要: PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs
- arxiv url: http://arxiv.org/abs/2507.22387v1
- Date: Wed, 30 Jul 2025 05:17:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.008632
- Title: PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs
- Title(参考訳): PATENTWRITER:LLMによる特許出願のベンチマーク研究
- Authors: Homaira Huda Shomee, Suman Kalyan Maity, Sourav Medya,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を活用して特許作成のパラダイムシフトを実現することを目的とする。
PATENTWRITER は,特許抽象生成において LLM を評価するための最初の統一ベンチマークフレームワークである。
- 参考スコア(独自算出の注目度): 2.9141392786940057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have emerged as transformative approaches in several important fields. This paper aims for a paradigm shift for patent writing by leveraging LLMs to overcome the tedious patent-filing process. In this work, we present PATENTWRITER, the first unified benchmarking framework for evaluating LLMs in patent abstract generation. Given the first claim of a patent, we evaluate six leading LLMs -- including GPT-4 and LLaMA-3 -- under a consistent setup spanning zero-shot, few-shot, and chain-of-thought prompting strategies to generate the abstract of the patent. Our benchmark PATENTWRITER goes beyond surface-level evaluation: we systematically assess the output quality using a comprehensive suite of metrics -- standard NLP measures (e.g., BLEU, ROUGE, BERTScore), robustness under three types of input perturbations, and applicability in two downstream patent classification and retrieval tasks. We also conduct stylistic analysis to assess length, readability, and tone. Experimental results show that modern LLMs can generate high-fidelity and stylistically appropriate patent abstracts, often surpassing domain-specific baselines. Our code and dataset are open-sourced to support reproducibility and future research.
- Abstract(参考訳): 大規模言語モデル (LLM) は、いくつかの重要な分野においてトランスフォーメーションアプローチとして登場した。
本稿では,LCMを活用して特許出願プロセスの煩雑さを克服し,特許出願のパラダイムシフトを実現することを目的とする。
本稿では,特許抽象生成におけるLCMを評価するための最初の統一ベンチマークフレームワークであるPATENTWRITERについて述べる。
GPT-4とLLaMA-3を含む6つの主要なLCMを、ゼロショット、少数ショット、チェーン・オブ・シークレットにまたがる一貫した設定で評価し、特許の抽象化を生成する戦略を推し進める。
当社のベンチマークPATENTWRITERは,3種類の入力摂動下での標準NLP尺度(BLEU,ROUGE,BERTScoreなど)と,下流の2つの特許分類および検索タスクにおけるロバスト性を用いて,出力品質を体系的に評価する。
また、長さ、可読性、音色を評価するためのスタイリスティックな分析も行います。
実験結果から、現代のLLMは高忠実でスタイリスティックに適切な特許抽象化を生成でき、しばしばドメイン固有のベースラインを超えることが示されている。
私たちのコードとデータセットは、再現性と将来の研究をサポートするためにオープンソース化されています。
関連論文リスト
- PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims [32.272839191711114]
LLM生成特許クレームを評価するための多次元評価フレームワークであるPatentScoreを紹介する。
汎用的なNLGメトリクスとは異なり、PatentScoreは特許固有の制約や文書構造を反映し、表面的類似性を超えた評価を可能にする。
我々はPearsonの相関関係を,エキスパートアノテーションを用いた$r = 0.819$で報告し,既存のNLG指標よりも優れていた。
論文 参考訳(メタデータ) (2025-05-25T22:20:11Z) - AutoPatent: A Multi-Agent Framework for Automatic Patent Generation [16.862811929856313]
我々はDraft2Patentと呼ばれる新しい実用的なタスクとそれに対応するD2Pベンチマークを導入し、初期ドラフトに基づいて17Kトークンを平均化する完全長の特許を生成するためにLarge Language Modelsに挑戦する。
提案するマルチエージェントフレームワークであるAutoPatentは,LPMベースのプランナーエージェント,ライターエージェント,検査エージェントをPGTreeとRRAGで組み合わせて,長文かつ複雑かつ高品質な特許文書を生成する。
論文 参考訳(メタデータ) (2024-12-13T02:27:34Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - Can Large Language Models Generate High-quality Patent Claims? [0.7535435234862548]
大規模言語モデル(LLM)は、様々なテキスト生成タスクで例外的なパフォーマンスを示している。
本稿では,特許クレーム生成における現在のLCMの性能を評価するためのデータセットを構築した。
論文 参考訳(メタデータ) (2024-06-27T18:07:40Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - FollowBench: A Multi-level Fine-grained Constraints Following Benchmark for Large Language Models [79.62191017182518]
FollowBenchは、大規模言語モデルのベンチマークに続くきめ細かい制約のベンチマークである。
本稿では,初期命令に段階的に1つの制約を付加するマルチレベル機構を提案する。
FollowBench上での13のLLMの評価により,LLMの弱さと今後の研究への道のりを示す。
論文 参考訳(メタデータ) (2023-10-31T12:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。