論文の概要: IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property
- arxiv url: http://arxiv.org/abs/2504.15524v1
- Date: Tue, 22 Apr 2025 02:00:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-01 00:47:07.077719
- Title: IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property
- Title(参考訳): IPBench:知的財産における大規模言語モデルの知識のベンチマーク
- Authors: Qiyao Wang, Guhong Chen, Hongbo Wang, Huaren Liu, Minghui Zhu, Zhifei Qin, Linwei Li, Yilin Yue, Shiqiang Wang, Jiayan Li, Yihang Wu, Ziqiang Liu, Longze Chen, Run Luo, Liyang Fan, Jiaming Li, Lei Zhang, Kan Xu, Hongfei Lin, Hamid Alinejad-Rokny, Shiwen Ni, Yuan Lin, Min Yang,
- Abstract要約: 本稿では,最初の包括的IPタスク分類と,多種多様なバイリンガルベンチマークであるIPBenchを紹介する。
このベンチマークは、現実世界の知的財産権アプリケーションにおいてLLMを評価し、理解と生成の両方を包含するように設計されている。
汎用モデルからドメイン固有モデルまで16 LLMのベンチマークを行い、最高の性能モデルでさえ75.8%の精度しか達成できないことを発見した。
- 参考スコア(独自算出の注目度): 30.847397185230538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intellectual Property (IP) is a unique domain that integrates technical and legal knowledge, making it inherently complex and knowledge-intensive. As large language models (LLMs) continue to advance, they show great potential for processing IP tasks, enabling more efficient analysis, understanding, and generation of IP-related content. However, existing datasets and benchmarks either focus narrowly on patents or cover limited aspects of the IP field, lacking alignment with real-world scenarios. To bridge this gap, we introduce the first comprehensive IP task taxonomy and a large, diverse bilingual benchmark, IPBench, covering 8 IP mechanisms and 20 tasks. This benchmark is designed to evaluate LLMs in real-world intellectual property applications, encompassing both understanding and generation. We benchmark 16 LLMs, ranging from general-purpose to domain-specific models, and find that even the best-performing model achieves only 75.8% accuracy, revealing substantial room for improvement. Notably, open-source IP and law-oriented models lag behind closed-source general-purpose models. We publicly release all data and code of IPBench and will continue to update it with additional IP-related tasks to better reflect real-world challenges in the intellectual property domain.
- Abstract(参考訳): 知的財産権(英: Intellectual Property、IP)は、技術的および法的知識を統合し、本質的に複雑で知識集約的なドメインである。
大規模言語モデル(LLM)が進歩を続けるにつれて、彼らはIPタスクを処理する大きな可能性を示し、より効率的な分析、理解、IP関連コンテンツの生成を可能にします。
しかし、既存のデータセットとベンチマークは、特許に限定するか、IP分野の限られた側面をカバーし、現実世界のシナリオと整合性に欠ける。
このギャップを埋めるために、我々は初めて包括的なIPタスク分類を導入し、大きな多言語ベンチマークであるIPBenchを導入し、8つのIPメカニズムと20のタスクをカバーした。
このベンチマークは、現実世界の知的財産権アプリケーションにおいてLLMを評価し、理解と生成の両方を包含するように設計されている。
汎用モデルからドメイン固有モデルまで16 LLMのベンチマークを行い、最高の性能モデルでさえ75.8%の精度しか達成できず、改善の余地がかなりあることを示した。
特に、オープンソースIPと法律指向モデルは、クローズドソース汎用モデルに遅れを取っている。
IPBenchのすべてのデータとコードを公開し、知的財産ドメインにおける現実の課題をよりよく反映するために、追加のIP関連タスクで更新し続けます。
関連論文リスト
- Enhancing Large Language Models (LLMs) for Telecommunications using Knowledge Graphs and Retrieval-Augmented Generation [52.8352968531863]
大規模言語モデル(LLM)は、汎用自然言語処理タスクにおいて大きな進歩を遂げている。
本稿では,知識グラフ(KG)と検索拡張生成(RAG)技術を組み合わせた新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-31T15:58:08Z) - Creation-MMBench: Assessing Context-Aware Creative Intelligence in MLLM [58.42678619252968]
Creation-MMBenchはマルチモーダル大言語モデルの創造性を評価するために設計されたベンチマークである。
ベンチマークは、51のきめ細かいタスクにまたがる765のテストケースで構成されている。
実験結果から,オープンソースのMLLMは,クリエイティブタスクにおけるプロプライエタリなモデルに比べて著しく性能が劣っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-03-18T17:51:34Z) - LegalAgentBench: Evaluating LLM Agents in Legal Domain [53.70993264644004]
LegalAgentBenchは、中国の法律領域でLLMエージェントを評価するために特別に設計されたベンチマークである。
LegalAgentBenchには、現実世界の法的シナリオから17のコーパスが含まれており、外部知識と対話するための37のツールを提供している。
論文 参考訳(メタデータ) (2024-12-23T04:02:46Z) - Intellectual Property Protection for Deep Learning Model and Dataset Intelligence [21.757997058357]
この研究は、一般的な、スキーム固有のパフォーマンス評価指標を体系的に要約する。
プロアクティブIP侵害防止とリアクティブIP所有権検証の観点から、既存のIPP手法を包括的に調査し分析する。
最後に、革新的な研究のガイドとして機能するであろう将来的な方向性の見通しを概説する。
論文 参考訳(メタデータ) (2024-11-07T09:02:41Z) - IPEval: A Bilingual Intellectual Property Agency Consultation Evaluation Benchmark for Large Language Models [13.103862590594705]
IPEvalは、IPの作成、アプリケーション、保護、管理の4つの主要な領域にわたる2657の多重選択質問で構成されている。
評価手法には、ゼロショット、5秒ショット、および7つのLLMタイプに対するCoT(Chain of Thought)が含まれる。
GPTシリーズやQwenシリーズのようなモデルによる英語のパフォーマンスは優れており、中国語中心のLLMは中国語テストで優れている。
論文 参考訳(メタデータ) (2024-06-18T08:18:18Z) - PatentGPT: A Large Language Model for Intellectual Property [26.31216865513109]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにまたがる例外的な性能のため、大きな注目を集めている。
しかし,知的財産権(IP)分野における大規模言語モデルの応用は,専門知識の要求が強いため困難である。
我々は、IPドメインのユニークな要件を満たす、IP指向のLLMをトレーニングするための、低コストで標準化された手順を初めて提示する。
論文 参考訳(メタデータ) (2024-04-28T17:36:43Z) - ProgGen: Generating Named Entity Recognition Datasets Step-by-step with Self-Reflexive Large Language Models [25.68491572293656]
大規模言語モデルは、名前付きエンティティ認識のような構造化された知識抽出タスクにおいて不足する。
本稿では,より優れたNERデータセットを生成するため,LCMを質素なNER能力で活用するための革新的で費用効率のよい戦略について検討する。
論文 参考訳(メタデータ) (2024-03-17T06:12:43Z) - MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in
Intellectual Property [51.43412400869531]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々は,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。
我々はまた,多言語IP関連テキストデータを微調整したBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)を開発した。
論文 参考訳(メタデータ) (2024-02-26T08:27:50Z) - Towards Verifiable Generation: A Benchmark for Knowledge-aware Language Model Attribution [48.86322922826514]
本稿では,知識認識型言語モデル属性(KaLMA)の新たな課題について述べる。
まず、属性のソースを構造化されていないテキストから知識グラフ(KG)に拡張し、そのリッチな構造は属性のパフォーマンスと作業シナリオの両方に役立ちます。
第2に,不完全な知識リポジトリを考慮した「意識的非能力」の設定を提案する。
第3に,テキスト品質,引用品質,引用アライメントを含む総合的な自動評価指標を提案する。
論文 参考訳(メタデータ) (2023-10-09T11:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。