論文の概要: Can Large Language Models Understand As Well As Apply Patent Regulations to Pass a Hands-On Patent Attorney Test?
- arxiv url: http://arxiv.org/abs/2507.10576v1
- Date: Fri, 11 Jul 2025 09:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.738378
- Title: Can Large Language Models Understand As Well As Apply Patent Regulations to Pass a Hands-On Patent Attorney Test?
- Title(参考訳): 大型の言語モデルは、特許法則を適用すれば特許弁護士試験に合格できるのか?
- Authors: Bhakti Khera, Rezvan Alamian, Pascal A. Scherz, Stephan M. Goetz,
- Abstract要約: OpenAI o1は0.82の精度と0.81のF1スコアでリードし、(Amazon Web Services)AWS Llama 3.1 8Bは0.50の精度でラグされ、PythonでデプロイされたLlama 3.1 8Bは0.55となった。
評価されたモデルのどれも、専門家レベルの基準に要求される平均0.90の閾値を超えなかったため、試験に完全に合格することはできなかった。
人間の特許専門家は、テキストの正当性を評価し、各モデルの様々な重要な欠点を明らかにした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The legal field already uses various large language models (LLMs) in actual applications, but their quantitative performance and reasons for it are underexplored. We evaluated several open-source and proprietary LLMs -- including GPT-series, Anthropic, Deepseek and Llama-3, variants -- on parts of the European Qualifying Examination (EQE) for future European Patent Attorneys. OpenAI o1 led with 0.82 accuracy and 0.81 F1 score, whereas (Amazon Web Services) AWS Llama 3.1 8B lagged at 0.50 accuracy, and a Python-deployed Llama 3.1 8B scored 0.55. The latter two are within the range of mere guessing for the two-answer forced-choice design. None of the evaluated models could have passed the examination fully, as accuracy never exceeded the average threshold of 0.90 required for professional-level standards -- also not models that are regularly promoted for their assumed beyond-PhD- and bar-admitted-lawyer-level performance. GPT-4o excelled at integrating text and graphics, while Claude 3 Opus often lost formatting coherence. Human patent experts evaluated the textual justifications and uncovered various critical shortcomings of each model. They valued clarity and legal rationale over the raw correctness of the answers, which revealed misalignment between automatic metrics and expert judgment. Model outputs were sensitive to modest temperature changes and prompt wording, which underscores the remaining necessity of expert oversight. Future work should target logical consistency, robust multimodality, and adaptive prompting to approach human-level patent proficiency. In summary, despite the outstanding performance of recent large models, the general public might overestimate their performance. The field has a long way to go to develop a virtual patent attorney. This paper wants to point out several specific limitations that need solutions.
- Abstract(参考訳): 法分野は、既に様々な大規模言語モデル(LLM)を実際の応用に用いているが、その量的性能と理由については未解明である。
我々は、将来の欧州特許弁護士のための欧州資格審査(EQE)の一部について、GPTシリーズ、Arthhropic、Deepseek、Llama-3など、いくつかのオープンソースおよびプロプライエタリなLCMを評価した。
OpenAI o1は0.82の精度と0.81のF1スコアでリードし、(Amazon Web Services)AWS Llama 3.1 8Bは0.50の精度でラグされ、PythonでデプロイされたLlama 3.1 8Bは0.55となった。
後者の2つは、単純な推測の範囲内にある。
評価されたモデルはいずれも試験に完全合格することはできず、プロレベルの基準に要求される平均0.90を超える精度は決してなかった。
GPT-4oはテキストとグラフィックの統合に優れ、Claude 3 Opusはフォーマットの一貫性を失った。
人間の特許専門家は、テキストの正当性を評価し、各モデルの様々な重要な欠点を明らかにした。
彼らは、答えの生の正しさよりも明確さと法的根拠を高く評価し、自動測定と専門家の判断の相違を明らかにした。
モデル出力は微妙な温度変化や言葉遣いに敏感であり、専門家の監視の必要性を浮き彫りにした。
今後の作業は、論理的一貫性、堅牢なマルチモーダリティ、適応性によって人間レベルの特許の熟練度に近づくことを目指している。
要約すると、最近の大型モデルの卓越した性能にもかかわらず、一般大衆はその性能を過大評価するかもしれない。
この分野には、仮想特許弁護士を開発するための長い道のりがある。
本稿では、ソリューションを必要とするいくつかの特定の制限を指摘したい。
関連論文リスト
- Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - PEDANTIC: A Dataset for the Automatic Examination of Definiteness in Patent Claims [13.242188189150987]
PEDANTICは14万件の米国特許権主張のデータセットで、不確定性の理由が指摘されている。
人間の検証研究は、高品質なアノテーションを生成する際のパイプラインの正確性を確認する。
PEDANTICは特許AI研究者に貴重なリソースを提供し、高度な検査モデルの開発を可能にする。
論文 参考訳(メタデータ) (2025-05-27T15:34:39Z) - Automated Repair of Ambiguous Natural Language Requirements [9.379494157034083]
ソフトウェア工学における大規模言語モデル(LLM)は、自然言語(NL)の役割を増幅している。
我々は、コード生成の不確実性を低減してアプローチするあいまいなNL要求の自動修復を導入する。
我々の結果は、SpecFixが要求の23.93%を修正し、修正された要求に対して33.66%のモデルPass@1が改善されたことを示している。
論文 参考訳(メタデータ) (2025-05-12T06:47:53Z) - OpenworldAUC: Towards Unified Evaluation and Optimization for Open-world Prompt Tuning [86.20909814421748]
現実世界のシナリオでは、事前のドメイン知識なしに入力を処理するモデルが必要です。
ペアのインスタンス比較による検出と分類を評価する指標であるOpenworldAUCを提案する。
オープンワールドシナリオにおける15のベンチマークの実験は、OpenworldAUCがOpenworldAUCや他のメトリクスでSOTAのパフォーマンスを達成することを示している。
論文 参考訳(メタデータ) (2025-05-08T12:31:40Z) - Ensuring Reproducibility in Generative AI Systems for General Use Cases: A Framework for Regression Testing and Open Datasets [0.0]
汎用ユースケースの回帰テストを実行するベンチマークであるGPR-benchを紹介する。
より新しいモデルは一般的に正確性を改善するが、違いは控えめで統計的に有意ではない。
対照的に、簡潔な命令は簡潔さを著しく向上させ、迅速なエンジニアリングの有効性を実証する。
論文 参考訳(メタデータ) (2025-05-02T12:31:43Z) - DocPuzzle: A Process-Aware Benchmark for Evaluating Realistic Long-Context Reasoning Capabilities [39.68147391225923]
大規模言語モデル(LLM)における長文推論能力を評価するための厳格に構築されたベンチマークであるDocPuzzleを提案する。
このベンチマークは、長い実世界の文書に対して多段階の推論を必要とする100のエキスパートレベルのQA問題からなる。
本稿では,チェックリスト誘導プロセス分析による予測バイアスを軽減する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-25T03:29:53Z) - Patent-CR: A Dataset for Patent Claim Revision [0.0]
本稿では,特許請求書修正作業のために作成された最初のデータセットであるPatent-CRについて述べる。
これには、特許審査官によって拒絶された初期特許出願と、最終認可版の両方が含まれる。
論文 参考訳(メタデータ) (2024-12-03T16:43:42Z) - Unearthing Skill-Level Insights for Understanding Trade-Offs of Foundation Models [61.467781476005435]
集約精度を検査する際には、スキルワイドのパフォーマンスが不明確になる。
モデル生成論理を検査することで,任意の評価事例に関連する基礎的スキルを復元する自動手法を提案する。
私たちのスキルスライスとフレームワークは、モデル評価の新しい道を開き、スキル固有の分析を活用して、よりきめ細やかで実用的なモデル機能の理解を解き放ちます。
論文 参考訳(メタデータ) (2024-10-17T17:51:40Z) - The Art of Saying No: Contextual Noncompliance in Language Models [123.383993700586]
本稿では,ユーザの要求に従わないモデルについて,コンテキスト非準拠の包括的分類を導入する。
我々の分類は、不完全、不完全、不完全、不決定、人為的要求を含む幅広いカテゴリーにまたがる。
言語モデルの非準拠性をテストするために,1000個の非準拠プロンプトの新たな評価スイートを開発するために,この分類法を用いる。
論文 参考訳(メタデータ) (2024-07-02T07:12:51Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Prompting GPT-3 To Be Reliable [117.23966502293796]
この研究は信頼性を一般化可能性、公平性、校正性、事実性という4つの側面に分解する。
GPT-3はこれらすべての面において,より小型の教師付きモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-10-17T14:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。