Fugu-MT 論文翻訳(概要): MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property

論文の概要: MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property

arxiv url: http://arxiv.org/abs/2402.16389v1
Date: Mon, 26 Feb 2024 08:27:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-27 14:04:24.105812
Title: MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in Intellectual Property
Title（参考訳）: MoZIP:知的財産における大規模言語モデル評価のための多言語ベンチマーク
Authors: Shiwen Ni, Minghuan Tan, Yuelin Bai, Fuqiang Niu, Min Yang, Bowen Zhang, Ruifeng Xu, Xiaojun Chen, Chengming Li, Xiping Hu, Ye Li, Jianping Fan
Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。我々は,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。我々はまた,多言語IP関連テキストデータを微調整したBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)を開発した。
参考スコア（独自算出の注目度）: 51.43412400869531
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated impressive performance in various natural language processing (NLP) tasks. However, there is limited understanding of how well LLMs perform in specific domains (e.g, the intellectual property (IP) domain). In this paper, we contribute a new benchmark, the first Multilingual-oriented quiZ on Intellectual Property (MoZIP), for the evaluation of LLMs in the IP domain. The MoZIP benchmark includes three challenging tasks: IP multiple-choice quiz (IPQuiz), IP question answering (IPQA), and patent matching (PatentMatch). In addition, we also develop a new IP-oriented multilingual large language model (called MoZi), which is a BLOOMZ-based model that has been supervised fine-tuned with multilingual IP-related text data. We evaluate our proposed MoZi model and four well-known LLMs (i.e., BLOOMZ, BELLE, ChatGLM and ChatGPT) on the MoZIP benchmark. Experimental results demonstrate that MoZi outperforms BLOOMZ, BELLE and ChatGLM by a noticeable margin, while it had lower scores compared with ChatGPT. Notably, the performance of current LLMs on the MoZIP benchmark has much room for improvement, and even the most powerful ChatGPT does not reach the passing level. Our source code, data, and models are available at \url{https://github.com/AI-for-Science/MoZi}.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。しかし、llmが特定のドメイン(例えば知的財産(ip)ドメイン)でどのように機能するかの理解は限られている。本稿では,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。 MoZIPベンチマークには、IP多重選択クイズ(IPQuiz)、IPQA(IPQA)、特許マッチング(PatentMatch)の3つの課題が含まれている。さらに我々は,多言語IP関連テキストデータで微調整されたBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)も開発している。提案したMoZiモデルと4つの有名なLCM(BLOOMZ, BELLE, ChatGLM, ChatGPT)をMoZIPベンチマークで評価した。実験の結果, MoZi は BLOOMZ, BELLE, ChatGLM を顕著な差で上回り, ChatGPT に比べてスコアが低かった。特に、MoZIPベンチマークにおける現在のLLMの性能は改善の余地が多く、最も強力なChatGPTでさえパスレベルに達しない。ソースコード、データ、モデルは、 \url{https://github.com/AI-for-Science/MoZi}で利用可能です。

関連論文リスト

Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
IPBench: Benchmarking the Knowledge of Large Language Models in Intellectual Property [30.847397185230538]
本稿では,最初の包括的IPタスク分類と,多種多様なバイリンガルベンチマークであるIPBenchを紹介する。このベンチマークは、現実世界の知的財産権アプリケーションにおいてLLMを評価し、理解と生成の両方を包含するように設計されている。汎用モデルからドメイン固有モデルまで16 LLMのベンチマークを行い、最高の性能モデルでさえ75.8%の精度しか達成できないことを発見した。
論文参考訳（メタデータ） (2025-04-22T02:00:41Z)
Investigating Large Language Models for Complex Word Identification in Multilingual and Multidomain Setups [1.8377902806196766]
複雑な単語識別(CWI)は語彙的単純化作業において必須のステップであり、最近はそれ自体がタスクとなっている。大規模言語モデル(LLM)は最近、ゼロ/フェーショット設定で目に見えないタスクを解決できる汎用性と能力のために、自然言語処理コミュニティで人気を博した。 Llama 2, Llama 3, Vicuna v1.5などのオープンソースモデルや, CWI, LCP, MWE設定におけるChatGPT-3.5-turbo, GPT-4oなどのクローズソースなど, LLMの使用状況について検討した。
論文参考訳（メタデータ） (2024-11-03T22:31:02Z)
SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation [37.45387861441091]
SAM4MLLMはSegment Anything Model(SAM)とMulti-Modal Large Language Models(MLLM)を統合する革新的なアプローチである。提案手法により,MLLMは既存のモデルアーキテクチャに過剰な修正を加えたり,特別なトークンを追加することなく,ピクセルレベルの位置情報を学習することができる。詳細な視覚情報と、大きな言語モデルの強力な表現能力とを、学習における計算オーバーヘッドを増大させることなく、統一された言語ベースの方法で組み合わせる。
論文参考訳（メタデータ） (2024-09-01T12:09:33Z)
IPEval: A Bilingual Intellectual Property Agency Consultation Evaluation Benchmark for Large Language Models [13.103862590594705]
IPEvalは、IPの作成、アプリケーション、保護、管理の4つの主要な領域にわたる2657の多重選択質問で構成されている。評価手法には、ゼロショット、5秒ショット、および7つのLLMタイプに対するCoT(Chain of Thought)が含まれる。 GPTシリーズやQwenシリーズのようなモデルによる英語のパフォーマンスは優れており、中国語中心のLLMは中国語テストで優れている。
論文参考訳（メタデータ） (2024-06-18T08:18:18Z)
Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-04-11T19:15:32Z)
Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文参考訳（メタデータ） (2023-12-21T05:32:49Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文参考訳（メタデータ） (2023-11-13T15:08:59Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文参考訳（メタデータ） (2023-05-24T10:16:16Z)
PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。 PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文参考訳（メタデータ） (2022-11-18T18:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。