論文の概要: PILOT-Bench: A Benchmark for Legal Reasoning in the Patent Domain with IRAC-Aligned Classification Tasks
- arxiv url: http://arxiv.org/abs/2601.04758v1
- Date: Thu, 08 Jan 2026 09:26:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.135559
- Title: PILOT-Bench: A Benchmark for Legal Reasoning in the Patent Domain with IRAC-Aligned Classification Tasks
- Title(参考訳): PILOT-Bench: IRAC対応分類タスクによる特許ドメインにおける法的推論のベンチマーク
- Authors: Yehoon Jang, Chaewon Lee, Hyun-seok Min, Sungchul Choi,
- Abstract要約: PILOT-BenchはPTABの判断をケースレベルでUSPTOの特許データと一致させる最初のPTAB中心のベンチマークである。
我々は、様々なクローズドソース(商用)とオープンソースLLMを評価し、複数の視点で分析を行う。
PILOT-Benchは、特許ドメインの法的推論を体系的に評価する基盤を確立している。
- 参考スコア(独自算出の注目度): 5.777437566146122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Patent Trial and Appeal Board (PTAB) of the USPTO adjudicates thousands of ex parte appeals each year, requiring the integration of technical understanding and legal reasoning. While large language models (LLMs) are increasingly applied in patent and legal practice, their use has remained limited to lightweight tasks, with no established means of systematically evaluating their capacity for structured legal reasoning in the patent domain. In this work, we introduce PILOT-Bench, the first PTAB-centric benchmark that aligns PTAB decisions with USPTO patent data at the case-level and formalizes three IRAC-aligned classification tasks: Issue Type, Board Authorities, and Subdecision. We evaluate a diverse set of closed-source (commercial) and open-source LLMs and conduct analyses across multiple perspectives, including input-variation settings, model families, and error tendencies. Notably, on the Issue Type task, closed-source models consistently exceed 0.75 in Micro-F1 score, whereas the strongest open-source model (Qwen-8B) achieves performance around 0.56, highlighting a substantial gap in reasoning capabilities. PILOT-Bench establishes a foundation for the systematic evaluation of patent-domain legal reasoning and points toward future directions for improving LLMs through dataset design and model alignment. All data, code, and benchmark resources are available at https://github.com/TeamLab/pilot-bench.
- Abstract(参考訳): USPTOの特許裁判および上訴委員会(PTAB)は、技術理解と法的推論の統合を必要とする、毎年数千の原告を起訴している。
大規模言語モデル(LLM)は、特許や法的な実践においてますます適用されているが、その使用は軽量なタスクに限られており、特許領域における構造化された法的推論の能力を体系的に評価する確立した手段は存在していない。
本研究では,PTABに基づく最初のベンチマークであるPILOT-Benchを紹介する。PTAB決定とUSPTO特許データとをケースレベルで整合させ,IRAC対応の3つの分類タスク,Issue Type, Board Authorities, Subdecisionを形式化する。
我々は、様々なクローズドソース(商用)とオープンソースLLMを評価し、入力偏差設定、モデルファミリー、エラー傾向など、様々な視点で分析を行う。
特にイシュータイプタスクでは、クローズドソースモデルがMicro-F1スコアの0.75を超えているのに対して、最強のオープンソースモデル(Qwen-8B)は0.56程度のパフォーマンスを実現し、推論能力の大幅なギャップを浮き彫りにしている。
PILOT-Benchは、特許ドメインの法的推論を体系的に評価する基盤を確立し、データセットの設計とモデルアライメントを通じてLCMを改善するための今後の方向性を示す。
すべてのデータ、コード、ベンチマークリソースはhttps://github.com/TeamLab/pilot-bench.comで入手できる。
関連論文リスト
- Pat-DEVAL: Chain-of-Legal-Thought Evaluation for Patent Description [0.0]
Pat-DEVALは特許説明機関専用の多次元評価フレームワークである。
CoLT(Chain-of-Legal-Thought)は、法的に制約された推論機構で、特許法則固有のシーケンシャルな分析を実施する。
Pat-DEVALは、技術的健全性と法的コンプライアンスの両方を保証するための新しい標準を確立することにより、自動特許起草システムの実用的展開のための堅牢な方法論的基盤を提供する。
論文 参考訳(メタデータ) (2026-01-01T02:10:26Z) - Bridging VLMs and Embodied Intelligence with Deliberate Practice Policy Optimization [72.20212909644017]
Deliberate Practice Policy Optimization (DPPO) はメタ認知型メタループのトレーニングフレームワークである。
DPPOは教師付き微調整(能力拡張)と強化学習(技能向上)の交互に行う
実証的には、DPPO(Pelican-VL 1.0)で視覚言語を具現化したモデルをトレーニングすると、ベースモデルよりも20.3%パフォーマンスが向上する。
私たちはモデルとコードをオープンソースにして、データとリソースのボトルネックを軽減する最初の体系的なフレームワークを提供しています。
論文 参考訳(メタデータ) (2025-11-20T17:58:04Z) - PANORAMA: A Dataset and Benchmarks Capturing Decision Trails and Rationales in Patent Examination [44.74519851862391]
PANORAMAは米国特許試験記録8,143件のデータセットである。
我々は,特許専門家の特許審査プロセスをエミュレートする逐次ベンチマークにパスを分解する。
我々は、LLMを含むNLPを特許領域で前進させるには、現実世界の特許審査をより深く理解する必要があると論じる。
論文 参考訳(メタデータ) (2025-10-25T03:24:13Z) - SoK: Large Language Model Copyright Auditing via Fingerprinting [69.14570598973195]
既存の手法をホワイトボックスとブラックボックスのアプローチに分類する統一的な枠組みと形式的な分類法を導入する。
現実的な展開シナリオ下でのLDMフィンガープリント評価のための最初の体系的ベンチマークであるLeaFBenchを提案する。
論文 参考訳(メタデータ) (2025-08-27T12:56:57Z) - PATENTWRITER: A Benchmarking Study for Patent Drafting with LLMs [2.9141392786940057]
本稿では,大規模言語モデル(LLM)を活用して特許作成のパラダイムシフトを実現することを目的とする。
PATENTWRITER は,特許抽象生成において LLM を評価するための最初の統一ベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-07-30T05:17:35Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Can Large Language Models Understand As Well As Apply Patent Regulations to Pass a Hands-On Patent Attorney Test? [2.7998963147546143]
OpenAI o1は0.82の精度と0.81のF1スコアでリードし、(Amazon Web Services)AWS Llama 3.1 8Bは0.50の精度でラグされ、PythonでデプロイされたLlama 3.1 8Bは0.55となった。
評価されたモデルのどれも、専門家レベルの基準に要求される平均0.90の閾値を超えなかったため、試験に完全に合格することはできなかった。
人間の特許専門家は、テキストの正当性を評価し、各モデルの様々な重要な欠点を明らかにした。
論文 参考訳(メタデータ) (2025-07-11T09:42:23Z) - PatentScore: Multi-dimensional Evaluation of LLM-Generated Patent Claims [35.13558856456741]
特許請求書、医療記録、技術報告などの高額なテキストは構造的に複雑であり、高い信頼性と精度を要求する。
従来の自然言語生成(NLG)メトリクスは汎用文書に有効であるが、複雑なハイテイク文書を評価するのに必要な構造的・法的特徴を捉えることができない。
本稿では,最も複雑で厳密なドメインの1つに特化して設計された多次元評価フレームワークであるPatentScoreを提案する。
論文 参考訳(メタデータ) (2025-05-25T22:20:11Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。