Fugu-MT 論文翻訳(概要): LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain

論文の概要: LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain

arxiv url: http://arxiv.org/abs/2301.13126v3
Date: Mon, 8 Jan 2024 10:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-10 00:23:42.432063
Title: LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain
Title（参考訳）: lextreme: 法的ドメインのためのマルチランゲージおよびマルチタスクベンチマーク
Authors: Joel Niklaus, Veton Matoshi, Pooja Rani, Andrea Galassi, Matthias St\"urmer, Ilias Chalkidis
Abstract要約: 法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
参考スコア（独自算出の注目度）: 24.54412069999257
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Lately, propelled by the phenomenal advances around the transformer architecture, the legal NLP field has enjoyed spectacular growth. To measure progress, well curated and challenging benchmarks are crucial. However, most benchmarks are English only and in legal NLP specifically there is no multilingual benchmark available yet. Additionally, many benchmarks are saturated, with the best models clearly outperforming the best humans and achieving near perfect scores. We survey the legal NLP literature and select 11 datasets covering 24 languages, creating LEXTREME. To provide a fair comparison, we propose two aggregate scores, one based on the datasets and one on the languages. The best baseline (XLM-R large) achieves both a dataset aggregate score a language aggregate score of 61.3. This indicates that LEXTREME is still very challenging and leaves ample room for improvement. To make it easy for researchers and practitioners to use, we release LEXTREME on huggingface together with all the code required to evaluate models and a public Weights and Biases project with all the runs.
Abstract（参考訳）: 近年, トランスアーキテクチャの周辺における驚くべき進歩により, NLP分野は飛躍的な成長を遂げている。進捗を測定するには、十分にキュレーションされ、挑戦的なベンチマークが不可欠である。しかし、ほとんどのベンチマークは英語のみであり、法律上のNLPでは、特にマルチリンガルベンチマークはまだ利用できない。さらに、多くのベンチマークは飽和しており、最高のモデルは最高の人間よりも明らかに優れており、ほぼ完璧なスコアに達している。法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。公平な比較のために,データセットに基づくスコアと言語に基づくスコアの2つを提案する。ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。研究者や実践者が簡単に使えるように、モデルを評価するのに必要なすべてのコードと、すべての実行で公開のWeights and Biasesプロジェクトとともに、ハグフェイスでLEXTREMEをリリースします。

関連論文リスト

A Multi-Language Object-Oriented Programming Benchmark for Large Language Models [61.267115598083315]
35の既存ベンチマークの調査では、3つの大きな不均衡が明らかになった。 85.7%は単一のプログラミング言語に重点を置いている。 94.3%は関数レベルまたはステートメントレベルのタスクのみを対象としている。 80%以上は平均10件未満のテストケースを含む。
論文参考訳（メタデータ） (2025-09-30T11:30:08Z)
Evaluating LLMs' Multilingual Capabilities for Bengali: Benchmark Creation and Performance Analysis [0.0]
ベンガル語はNLP研究においてあまり表現されていない言語である。ベンガルのNLP性能を阻害する課題を系統的に検討する。ベンガル語では英語と比較して一貫した性能差がみられた。
論文参考訳（メタデータ） (2025-07-31T05:16:43Z)
Evaluating Large Language Model with Knowledge Oriented Language Specific Simple Question Answering [73.73820209993515]
KoLasSimpleQAは,Large Language Models (LLMs) の多言語事実能力を評価する最初のベンチマークである。既存の研究に触発されて、単一知識点カバレッジ、絶対的客観性、独特な答え、時間的安定性といった特徴を備えた質問セットを作成しました。その結果,2つの領域間に大きな性能差が認められた。
論文参考訳（メタデータ） (2025-05-22T12:27:02Z)
P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
大きな言語モデル(LLM)は、翻訳、コード生成、推論といったタスクにまたがる様々な多言語機能を示す。以前の評価では、その範囲を基本自然言語処理(NLP)や、独立した機能固有のタスクに制限することが多かった。我々は、これらのベンチマークの有用性に関する以前の研究の監視に対処するため、大規模ベンチマークから利用可能な、合理的なベンチマークを選択するパイプラインを提案する。本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval。
論文参考訳（メタデータ） (2024-11-14T01:29:36Z)
Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。 Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文参考訳（メタデータ） (2024-10-21T00:59:47Z)
Benchmarking Pre-trained Large Language Models' Potential Across Urdu NLP tasks [0.9786690381850356]
多言語データで事前訓練されたLarge Language Models (LLMs)は、自然言語処理の研究に革命をもたらした。本研究では,15のUrduデータセットを用いて,14のタスクにまたがる顕著なLLMの詳細な検討を行った。実験の結果、SOTAモデルはゼロショット学習を伴う全てのUrdu NLPタスクにおいて、エンコーダ-デコーダ事前訓練された言語モデルを上回ることがわかった。
論文参考訳（メタデータ） (2024-05-24T11:30:37Z)
DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文参考訳（メタデータ） (2024-03-16T20:18:36Z)
Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文参考訳（メタデータ） (2023-10-31T08:09:20Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset [0.0]
文境界検出(SBD)は自然言語処理の基礎的構成要素の一つである。我々は6言語で130万以上の注釈文からなる多言語法的データセットをキュレートした。 CRF, BiLSTM-CRF, トランスフォーマーに基づく単言語モデルと多言語モデルの訓練, 試験を行い, 最先端性能を実証した。
論文参考訳（メタデータ） (2023-05-02T05:52:03Z)
This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文参考訳（メタデータ） (2022-11-23T16:51:09Z)
IndicSUPERB: A Speech Processing Universal Performance Benchmark for Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文参考訳（メタデータ） (2022-08-24T20:14:52Z)
AfroMT: Pretraining Strategies and Reproducible Benchmarks for Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。 11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文参考訳（メタデータ） (2021-09-10T07:45:21Z)
KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文参考訳（メタデータ） (2020-05-01T21:55:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。