論文の概要: MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in
Intellectual Property
- arxiv url: http://arxiv.org/abs/2402.16389v1
- Date: Mon, 26 Feb 2024 08:27:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 14:04:24.105812
- Title: MoZIP: A Multilingual Benchmark to Evaluate Large Language Models in
Intellectual Property
- Title(参考訳): MoZIP:知的財産における大規模言語モデル評価のための多言語ベンチマーク
- Authors: Shiwen Ni, Minghuan Tan, Yuelin Bai, Fuqiang Niu, Min Yang, Bowen
Zhang, Ruifeng Xu, Xiaojun Chen, Chengming Li, Xiping Hu, Ye Li, Jianping Fan
- Abstract要約: 大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
我々は,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。
我々はまた,多言語IP関連テキストデータを微調整したBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)を開発した。
- 参考スコア(独自算出の注目度): 51.43412400869531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated impressive performance in
various natural language processing (NLP) tasks. However, there is limited
understanding of how well LLMs perform in specific domains (e.g, the
intellectual property (IP) domain). In this paper, we contribute a new
benchmark, the first Multilingual-oriented quiZ on Intellectual Property
(MoZIP), for the evaluation of LLMs in the IP domain. The MoZIP benchmark
includes three challenging tasks: IP multiple-choice quiz (IPQuiz), IP question
answering (IPQA), and patent matching (PatentMatch). In addition, we also
develop a new IP-oriented multilingual large language model (called MoZi),
which is a BLOOMZ-based model that has been supervised fine-tuned with
multilingual IP-related text data. We evaluate our proposed MoZi model and four
well-known LLMs (i.e., BLOOMZ, BELLE, ChatGLM and ChatGPT) on the MoZIP
benchmark. Experimental results demonstrate that MoZi outperforms BLOOMZ, BELLE
and ChatGLM by a noticeable margin, while it had lower scores compared with
ChatGPT. Notably, the performance of current LLMs on the MoZIP benchmark has
much room for improvement, and even the most powerful ChatGPT does not reach
the passing level. Our source code, data, and models are available at
\url{https://github.com/AI-for-Science/MoZi}.
- Abstract(参考訳): 大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスクにおいて顕著な性能を示した。
しかし、llmが特定のドメイン(例えば知的財産(ip)ドメイン)でどのように機能するかの理解は限られている。
本稿では,知的財産に関する初のマルチ言語指向クイズ (Multilingual-oriented quiZ on Intellectual Property, MoZIP) をIP領域におけるLLMの評価のために提案する。
MoZIPベンチマークには、IP多重選択クイズ(IPQuiz)、IPQA(IPQA)、特許マッチング(PatentMatch)の3つの課題が含まれている。
さらに我々は,多言語IP関連テキストデータで微調整されたBLOOMZベースモデルである,新しいIP指向多言語大言語モデル(MoZi)も開発している。
提案したMoZiモデルと4つの有名なLCM(BLOOMZ, BELLE, ChatGLM, ChatGPT)をMoZIPベンチマークで評価した。
実験の結果, MoZi は BLOOMZ, BELLE, ChatGLM を顕著な差で上回り, ChatGPT に比べてスコアが低かった。
特に、MoZIPベンチマークにおける現在のLLMの性能は改善の余地が多く、最も強力なChatGPTでさえパスレベルに達しない。
ソースコード、データ、モデルは、 \url{https://github.com/AI-for-Science/MoZi}で利用可能です。
関連論文リスト
- Data-Augmentation-Based Dialectal Adaptation for LLMs [26.72394783468532]
本稿では, GMUNLPによるVarDial 2024におけるDialect-Copa共有タスクへの参加について述べる。
この課題は、南スラヴ語のマイクロディレクト上での大規模言語モデル(LLM)の常識推論能力を評価することに焦点を当てている。
本稿では,異なるタイプの言語モデルの強みを組み合わせ,データ拡張技術を活用してタスク性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2024-04-11T19:15:32Z) - Speech Translation with Large Language Models: An Industrial Practice [64.5419534101104]
LLM-STは,事前学習型大言語モデル(LLM)に基づいて構築された,新規で効果的な音声翻訳モデルである。
大規模言語モデル(LLM)を音声エンコーダと統合し、マルチタスクの命令チューニングを利用することで、LLM-STは正確なタイムスタンプと翻訳を生成することができる。
英語と中国語のデータセットの厳密な実験を通じて,LLM-STの異常な性能を示す。
論文 参考訳(メタデータ) (2023-12-21T05:32:49Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - Speak Like a Native: Prompting Large Language Models in a Native Style [53.84738665918496]
In-context Learning (ICL) with large language model (LLMs) は、多くの自然言語処理タスクにおいて近代的なツールとなっている。
本稿では, LLMの推論能力を向上させるために, textbfAlignedCoT という新しい効果的手法を提案する。
数学的質問答え、常識的推論、テキスト理解に関するいくつかのベンチマークにおいて、広範囲かつ包括的な実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Beyond Text: Unveiling Multimodal Proficiency of Large Language Models
with MultiAPI Benchmark [11.572835837392867]
この研究は、包括的な大規模APIベンチマークデータセットのパイオニアであるMultiAPIを紹介した。
235の多様なAPIコールと2,038のコンテキストプロンプトで構成されており、マルチモーダルタスクを扱うツール拡張LDMのユニークなプラットフォーム評価を提供する。
LLMはAPIコール決定の熟練度を示すが,ドメイン識別や関数選択,引数生成といった課題に直面している。
論文 参考訳(メタデータ) (2023-11-21T23:26:05Z) - ML-Bench: Evaluating Large Language Models for Code Generation in Repository-Level Machine Learning Tasks [76.85930757493409]
大規模言語モデル(LLM)は、コード生成ベンチマークの習熟度を示しているが、これらの結果を実用的な開発シナリオに変換することは依然として難しい。
ML-Benchは、レポジトリレベルのオープンソースライブラリを統合して機械学習タスクを完了させるLLMの機能を評価するために設計された、新しいベンチマークである。
以上の結果から, GPT-4は他のLSMよりも優れており, 課題の複雑さを浮き彫りにしたタスクは33.82%に過ぎなかった。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - LM-Polygraph: Uncertainty Estimation for Language Models [71.21409522341482]
不確実性推定(UE)手法は、大規模言語モデル(LLM)の安全性、責任性、効果的な利用のための1つの経路である。
テキスト生成タスクにおけるLLMの最先端UEメソッドのバッテリを実装したフレームワークであるLM-PolygraphをPythonで統一したプログラムインタフェースで導入する。
研究者によるUEテクニックの一貫した評価のための拡張可能なベンチマークと、信頼スコア付き標準チャットダイアログを強化するデモWebアプリケーションを導入している。
論文 参考訳(メタデータ) (2023-11-13T15:08:59Z) - Benchmarking Large Language Model Capabilities for Conditional
Generation [15.437176676169997]
既存のアプリケーション固有の生成ベンチマークをPLMに適応させる方法について論じる。
PLMは異なるデータ体系に適用可能であり、複数の言語に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-06-29T08:59:40Z) - LAraBench: Benchmarking Arabic AI with Large Language Models [26.249084464525044]
LAraBenchはこのギャップをアラビア自然言語処理(NLP)と音声処理タスクに対処している。
我々は、GPT-3.5-turbo、GPT-4、BLOOMZ、Jais-13b-chat、Whisper、USMといったモデルを用いて、61のデータセットで33の異なるタスクに取り組む。
これには,296Kデータポイント,46時間スピーチ,テキスト音声(TTS)30文を含む98の実験的セットアップが含まれていた。
論文 参考訳(メタデータ) (2023-05-24T10:16:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。