論文の概要: LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain
- arxiv url: http://arxiv.org/abs/2301.13126v3
- Date: Mon, 8 Jan 2024 10:08:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 00:23:42.432063
- Title: LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain
- Title(参考訳): lextreme: 法的ドメインのためのマルチランゲージおよびマルチタスクベンチマーク
- Authors: Joel Niklaus, Veton Matoshi, Pooja Rani, Andrea Galassi, Matthias
St\"urmer, Ilias Chalkidis
- Abstract要約: 法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。
ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。
これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
- 参考スコア(独自算出の注目度): 24.54412069999257
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Lately, propelled by the phenomenal advances around the transformer
architecture, the legal NLP field has enjoyed spectacular growth. To measure
progress, well curated and challenging benchmarks are crucial. However, most
benchmarks are English only and in legal NLP specifically there is no
multilingual benchmark available yet. Additionally, many benchmarks are
saturated, with the best models clearly outperforming the best humans and
achieving near perfect scores. We survey the legal NLP literature and select 11
datasets covering 24 languages, creating LEXTREME. To provide a fair
comparison, we propose two aggregate scores, one based on the datasets and one
on the languages. The best baseline (XLM-R large) achieves both a dataset
aggregate score a language aggregate score of 61.3. This indicates that
LEXTREME is still very challenging and leaves ample room for improvement. To
make it easy for researchers and practitioners to use, we release LEXTREME on
huggingface together with all the code required to evaluate models and a public
Weights and Biases project with all the runs.
- Abstract(参考訳): 近年, トランスアーキテクチャの周辺における驚くべき進歩により, NLP分野は飛躍的な成長を遂げている。
進捗を測定するには、十分にキュレーションされ、挑戦的なベンチマークが不可欠である。
しかし、ほとんどのベンチマークは英語のみであり、法律上のNLPでは、特にマルチリンガルベンチマークはまだ利用できない。
さらに、多くのベンチマークは飽和しており、最高のモデルは最高の人間よりも明らかに優れており、ほぼ完璧なスコアに達している。
法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。
公平な比較のために,データセットに基づくスコアと言語に基づくスコアの2つを提案する。
ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。
これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。
研究者や実践者が簡単に使えるように、モデルを評価するのに必要なすべてのコードと、すべての実行で公開のWeights and Biasesプロジェクトとともに、ハグフェイスでLEXTREMEをリリースします。
関連論文リスト
- YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning:
Insights and Observations [90.73517523001149]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
翻訳を利用して,最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
我々は、MathOctopusという名の強力なxMR LLMを構築するための異なるトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122
Language Variants [82.6462524808751]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - MultiLegalSBD: A Multilingual Legal Sentence Boundary Detection Dataset [0.0]
文境界検出(SBD)は自然言語処理の基礎的構成要素の一つである。
我々は6言語で130万以上の注釈文からなる多言語法的データセットをキュレートした。
CRF, BiLSTM-CRF, トランスフォーマーに基づく単言語モデルと多言語モデルの訓練, 試験を行い, 最先端性能を実証した。
論文 参考訳(メタデータ) (2023-05-02T05:52:03Z) - This is the way: designing and compiling LEPISZCZE, a comprehensive NLP
benchmark for Polish [5.8090623549313944]
ポーランドNLPの新しい総合ベンチマークであるLEPISZCZEを紹介する。
ポーランドのベンチマークから5つのデータセットを使用し、8つの新しいデータセットを追加しています。
我々はポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語のための同様のベンチマークを設計する青写真を提供する。
論文 参考訳(メタデータ) (2022-11-23T16:51:09Z) - IndicSUPERB: A Speech Processing Universal Performance Benchmark for
Indian languages [16.121708272597154]
インド12言語における音声認識のためのIndicSUPERBベンチマークをリリースする。
一般的に使用されているベースラインベンチマークとともに、さまざまな自己教師付きモデルをトレーニングし、評価する。
言語固有の微調整モデルはほとんどのタスクのベースラインよりも正確であることを示す。
論文 参考訳(メタデータ) (2022-08-24T20:14:52Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - KLEJ: Comprehensive Benchmark for Polish Language Understanding [4.702729080310267]
ポーランド語理解のための総合的なマルチタスクベンチマークを導入する。
また、ポーランド語に特化して訓練されたトランスフォーマーベースのモデルであるHerBERTもリリースしました。
論文 参考訳(メタデータ) (2020-05-01T21:55:40Z) - CLUE: A Chinese Language Understanding Evaluation Benchmark [41.86950255312653]
最初の大規模中国語理解評価(CLUE)ベンチマークを紹介する。
CLUEは、確立された1文/文ペアの分類タスクにまたがる9つのタスクと、機械読み取りの理解を提供する。
我々は、現在最先端の中国のモデルを用いてスコアを報告する。
論文 参考訳(メタデータ) (2020-04-13T15:02:29Z) - XGLUE: A New Benchmark Dataset for Cross-lingual Pre-training,
Understanding and Generation [100.09099800591822]
XGLUEは、大規模な言語間の事前トレーニングモデルのトレーニングに使用できる、新しいベンチマークデータセットである。
XGLUEは、自然言語理解と生成シナリオの両方をカバーする、11の多様化されたタスクを提供する。
論文 参考訳(メタデータ) (2020-04-03T07:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。