論文の概要: PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination
- arxiv url: http://arxiv.org/abs/2510.24774v1
- Date: Sat, 25 Oct 2025 03:24:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.482619
- Title: PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination
- Title(参考訳): PANORAMA:特許審査における意思決定の道筋と合理化のためのデータセットとベンチマーク
- Authors: Hyunseung Lim, Sooyohn Nam, Sungmin Na, Ji Yong Cho, June Yong Yang, Hyungyu Shin, Yoonjoo Lee, Juho Kim, Moontae Lee, Hwajung Hong,
- Abstract要約: PANORAMAは米国特許試験記録8,143件のデータセットである。
我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。
我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
- 参考スコア(独自算出の注目度): 44.74519851862391
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Patent examination remains an ongoing challenge in the NLP literature even after the advent of large language models (LLMs), as it requires an extensive yet nuanced human judgment on whether a submitted claim meets the statutory standards of novelty and non-obviousness against previously granted claims -- prior art -- in expert domains. Previous NLP studies have approached this challenge as a prediction task (e.g., forecasting grant outcomes) with high-level proxies such as similarity metrics or classifiers trained on historical labels. However, this approach often overlooks the step-by-step evaluations that examiners must make with profound information, including rationales for the decisions provided in office actions documents, which also makes it harder to measure the current state of techniques in patent review processes. To fill this gap, we construct PANORAMA, a dataset of 8,143 U.S. patent examination records that preserves the full decision trails, including original applications, all cited references, Non-Final Rejections, and Notices of Allowance. Also, PANORAMA decomposes the trails into sequential benchmarks that emulate patent professionals' patent review processes and allow researchers to examine large language models' capabilities at each step of them. Our findings indicate that, although LLMs are relatively effective at retrieving relevant prior art and pinpointing the pertinent paragraphs, they struggle to assess the novelty and non-obviousness of patent claims. We discuss these results and argue that advancing NLP, including LLMs, in the patent domain requires a deeper understanding of real-world patent examination. Our dataset is openly available at https://huggingface.co/datasets/LG-AI-Research/PANORAMA.
- Abstract(参考訳): 特許審査は、大規模な言語モデル(LLM)の出現後も、NLP文学において進行中の課題である。
従来のNLP研究は、類似度メトリクスや歴史的ラベルで訓練された分類器のような高いレベルのプロキシを持つ予測タスク(例えば、寄付結果の予測)として、この課題にアプローチしてきた。
しかし、この手法は、検査官が深い情報で行わなければならないステップバイステップの評価をしばしば見落としており、その中には、オフィスアクション文書で提供される決定の根拠も含まれており、また、特許審査プロセスにおける技術の現状の計測も困難である。
このギャップを埋めるために、我々はPANORAMAを構築した。PANORAMAは8,143件の米国特許審査記録のデータセットで、元のアプリケーション、引用参照、ノンファイナルリジェクション、通知の通知を含む完全な決定パスを保存している。
また、PANORAMAは、特許専門家の特許審査プロセスをエミュレートし、研究者がそれぞれのステップで大きな言語モデルの能力を検証できるように、シーケンシャルなベンチマークにパスを分解する。
以上の結果から, LLMは特許請求の新規性や非回避性を評価するのに苦慮していると考えられる。
これらの結果について議論し,特許領域におけるLPMを含むNLPの進展には,実世界の特許審査をより深く理解する必要があると論じる。
私たちのデータセットはhttps://huggingface.co/datasets/LG-AI-Research/PANORAMAで公開されています。
関連論文リスト
- ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation [56.79698529022327]
法的な主張は、事件における原告の要求を言及し、法的理由づけと事件解決を導くのに不可欠である。
本稿では,その事例の事実に基づく法的クレーム生成の問題について考察する。
われわれは,中国法定クレーム生成タスクの最初のデータセットであるClaymGen-CNを構築した。
論文 参考訳(メタデータ) (2025-08-24T07:19:25Z) - PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims [13.242188189150987]
PEDANTICは14万件の米国特許権主張のデータセットで、不確定性の理由が指摘されている。
人間の検証研究は、高品質なアノテーションを生成する際のパイプラインの正確性を確認する。
PEDANTICは特許AI研究者に貴重なリソースを提供し、高度な検査モデルの開発を可能にする。
論文 参考訳(メタデータ) (2025-05-27T15:34:39Z) - Can AI Examine Novelty of Patents?: Novelty Evaluation Based on the Correspondence between Patent Claim and Prior Art [5.655276956391884]
本稿では,特許の新規性を評価するための大規模言語モデル(LLM)の能力を評価することで,新たな課題を提起する。
本研究は,特許試験事例から得られた新規性評価に特化して設計された最初のデータセットについて述べる。
本研究は, 分類モデルが新規性を効果的に評価するのに苦慮する一方で, 生成モデルは合理的な精度で予測を行うことを示した。
論文 参考訳(メタデータ) (2025-02-10T10:09:29Z) - Patent-CR: A Dataset for Patent Claim Revision [0.0]
本稿では,特許請求書修正作業のために作成された最初のデータセットであるPatent-CRについて述べる。
これには、特許審査官によって拒絶された初期特許出願と、最終認可版の両方が含まれる。
論文 参考訳(メタデータ) (2024-12-03T16:43:42Z) - PatentEdits: Framing Patent Novelty as Textual Entailment [62.8514393375952]
このデータセットには105万例の修正が成功している。
我々は、文章を文単位でラベル付けするアルゴリズムを設計し、これらの編集がいかに大きな言語モデルで予測できるかを確立する。
引用引用文と起草文の文的含意を評価することは,どの発明的主張が変化しないか,あるいは先行技術に関して新規かを予測するのに特に有効であることを示す。
論文 参考訳(メタデータ) (2024-11-20T17:23:40Z) - JudgeRank: Leveraging Large Language Models for Reasoning-Intensive Reranking [81.88787401178378]
本稿では,文書関連性を評価する際に,人間の認知過程をエミュレートする新しいエージェント・リランカであるJiceRankを紹介する。
我々は,推論集約型BRIGHTベンチマークを用いて判定Rankを評価し,第1段階の検索手法よりも性能が大幅に向上したことを示す。
さらに、JiceRankは、人気の高いBEIRベンチマークの細調整された最先端リランカと同等に動作し、ゼロショットの一般化能力を検証している。
論文 参考訳(メタデータ) (2024-10-31T18:43:12Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。