論文の概要: IPEval: A Bilingual Intellectual Property Agency Consultation Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12386v1
- Date: Tue, 18 Jun 2024 08:18:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:56:37.328110
- Title: IPEval: A Bilingual Intellectual Property Agency Consultation Evaluation Benchmark for Large Language Models
- Title(参考訳): IPEval: 大規模言語モデルのためのバイリンガル知的財産庁コンサルテーション評価ベンチマーク
- Authors: Qiyao Wang, Jianguo Huang, Shule Lu, Yuan Lin, Kan Xu, Liang Yang, Hongfei Lin,
- Abstract要約: IPEvalは、IPの作成、アプリケーション、保護、管理の4つの主要な領域にわたる2657の多重選択質問で構成されている。
評価手法には、ゼロショット、5秒ショット、および7つのLLMタイプに対するCoT(Chain of Thought)が含まれる。
GPTシリーズやQwenシリーズのようなモデルによる英語のパフォーマンスは優れており、中国語中心のLLMは中国語テストで優れている。
- 参考スコア(独自算出の注目度): 13.103862590594705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of Large Language Models (LLMs) in vertical domains, including intellectual property (IP), lacks a specific evaluation benchmark for assessing their understanding, application, and reasoning abilities. To fill this gap, we introduce IPEval, the first evaluation benchmark tailored for IP agency and consulting tasks. IPEval comprises 2657 multiple-choice questions across four major dimensions: creation, application, protection, and management of IP. These questions span patent rights (inventions, utility models, designs), trademarks, copyrights, trade secrets, and other related laws. Evaluation methods include zero-shot, 5-few-shot, and Chain of Thought (CoT) for seven LLM types, predominantly in English or Chinese. Results show superior English performance by models like GPT series and Qwen series, while Chinese-centric LLMs excel in Chinese tests, albeit specialized IP LLMs lag behind general-purpose ones. Regional and temporal aspects of IP underscore the need for LLMs to grasp legal nuances and evolving laws. IPEval aims to accurately gauge LLM capabilities in IP and spur development of specialized models. Website: \url{https://ipeval.github.io/}
- Abstract(参考訳): 知的財産権(IP)を含む垂直領域における大規模言語モデル(LLM)の急速な開発は、その理解、応用、推論能力を評価するための具体的な評価ベンチマークを欠いている。
このギャップを埋めるために、IPエージェンシーとコンサルティングタスクに適した最初の評価ベンチマークであるIPEvalを紹介する。
IPEvalは、IPの作成、アプリケーション、保護、管理の4つの主要な領域にわたる2657の多重選択質問で構成されている。
これらの質問は、特許権(発明、実用新案、デザイン)、商標、著作権、貿易秘密、その他の関連する法律にまたがる。
評価手法には、ゼロショット、5秒ショット、および7つのLLMタイプに対するCoT(Chain of Thought)が含まれる。
GPTシリーズやQwenシリーズのようなモデルでは英語のパフォーマンスが優れており、中国中心のLLMは中国のテストでは優れており、IP LLMは汎用のLLMより遅れている。
IPの地域的・時間的側面は、LLMが法的なニュアンスと進化する法を理解する必要性を浮き彫りにしている。
IPEvalは、IP内のLLM能力を正確に測定し、特殊なモデルの開発を促進することを目的としている。
ウェブサイト: \url{https://ipeval.github.io/}
関連論文リスト
- InternLM-Law: An Open Source Chinese Legal Large Language Model [72.2589401309848]
InternLM-Lawは、中国法に関する様々な法的クエリに対処するための特殊なLLMである。
われわれは、中国法域に100万以上のクエリを含むデータセットを慎重に構築する。
InternLM-LawはLawBench上で最高の平均性能を達成し、20サブタスク中13サブタスクでGPT-4を含む最先端モデルを上回っている。
論文 参考訳(メタデータ) (2024-06-21T06:19:03Z) - Unveiling the Competitive Dynamics: A Comparative Evaluation of American and Chinese LLMs [13.112787482203286]
本研究は、英語と中国語の両文脈において、米国と中国語の大規模言語モデル(LLM)の比較評価を行う。
本研究では,自然言語の習熟度,専門知識,安全性と責任を包括的に評価する枠組みを提案する。
GPT 4-Turboは英語の文脈では最前線にあり、Ernie-Bot 4は中国語の文脈では際立っている。
論文 参考訳(メタデータ) (2024-05-09T15:39:19Z) - PatentGPT: A Large Language Model for Intellectual Property [26.31216865513109]
大規模言語モデル(LLM)は、多くの自然言語処理タスクにまたがる例外的な性能のため、大きな注目を集めている。
しかし,知的財産権(IP)分野における大規模言語モデルの応用は,専門知識の要求が強いため困難である。
我々は、IPドメインのユニークな要件を満たす、IP指向のLLMをトレーニングするための、低コストで標準化された手順を初めて提示する。
論文 参考訳(メタデータ) (2024-04-28T17:36:43Z) - Benchmarking Large Language Models for Persian: A Preliminary Study Focusing on ChatGPT [4.574416868427695]
本稿では,ペルシア語に対する大規模言語モデル(LLM)の有効性について検討する。
本稿では,ペルシャ語タスクにおけるLSMの総合的なベンチマーク研究について紹介する。
論文 参考訳(メタデータ) (2024-04-03T02:12:29Z) - MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in
Intellectual Property [51.43412400869531]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々は,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。
我々はまた,多言語IP関連テキストデータを微調整したBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)を開発した。
論文 参考訳(メタデータ) (2024-02-26T08:27:50Z) - OMGEval: An Open Multilingual Generative Evaluation Benchmark for Large
Language Models [59.54423478596468]
OMGEvalは、オープンソースの多言語生成テストセットであり、異なる言語におけるLLMの能力を評価することができる。
各言語について、OMGEvalは804のオープンエンド質問を提供し、LLMの重要な機能を幅広くカバーしている。
具体的には、OMGEvalの現在のバージョンには5つの言語(Zh, Ru, Fr, Es, Ar)が含まれている。
論文 参考訳(メタデータ) (2024-02-21T04:42:41Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Precedent-Enhanced Legal Judgment Prediction with LLM and Domain-Model
Collaboration [52.57055162778548]
法的判断予測(LJP)は、法律AIにおいてますます重要な課題となっている。
先行は、同様の事実を持つ以前の訴訟であり、国家法制度におけるその後の事件の判断の基礎となっている。
近年のディープラーニングの進歩により、LJPタスクの解決に様々なテクニックが使えるようになった。
論文 参考訳(メタデータ) (2023-10-13T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。