論文の概要: MEL: Legal Spanish Language Model
- arxiv url: http://arxiv.org/abs/2501.16011v1
- Date: Mon, 27 Jan 2025 12:50:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:57:09.555979
- Title: MEL: Legal Spanish Language Model
- Title(参考訳): MEL: 法的スペイン語モデル
- Authors: David Betancur Sánchez, Nuria Aldama García, Álvaro Barbero Jiménez, Marta Guerrero Nieto, Patricia Marsà Morales, Nicolás Serrano Salas, Carlos García Hernán, Pablo Haya Coll, Elena Montiel Ponsoda, Pablo Calleja Ibáñez,
- Abstract要約: 本稿では,XLM-RoBERTa-largeに基づく法的言語モデルであるMELの開発と評価について述べる。
評価ベンチマークは、法的スペイン語を理解する上で、ベースラインモデルよりも大幅に改善されていることを示している。
- 参考スコア(独自算出の注目度): 0.3651422140724638
- License:
- Abstract: Legal texts, characterized by complex and specialized terminology, present a significant challenge for Language Models. Adding an underrepresented language, such as Spanish, to the mix makes it even more challenging. While pre-trained models like XLM-RoBERTa have shown capabilities in handling multilingual corpora, their performance on domain specific documents remains underexplored. This paper presents the development and evaluation of MEL, a legal language model based on XLM-RoBERTa-large, fine-tuned on legal documents such as BOE (Bolet\'in Oficial del Estado, the Spanish oficial report of laws) and congress texts. We detail the data collection, processing, training, and evaluation processes. Evaluation benchmarks show a significant improvement over baseline models in understanding the legal Spanish language. We also present case studies demonstrating the model's application to new legal texts, highlighting its potential to perform top results over different NLP tasks.
- Abstract(参考訳): 複雑な専門用語を特徴とする法的テキストは、言語モデルにとって重要な課題である。
スペイン語のような表現不足の言語をミックスに加えることにより、さらに困難になる。
XLM-RoBERTaのような事前訓練されたモデルは、多言語コーパスを扱う能力を示したが、ドメイン固有のドキュメントのパフォーマンスは未定のままである。
本稿では, BOE (Bolet\'in Oficial del Estado, the Spanish biicial report of law) や議会文書などの法律文書に微調整されたXLM-RoBERTa-largeに基づく法的言語モデルであるMELの開発と評価について述べる。
データ収集、処理、トレーニング、評価プロセスについて詳述する。
評価ベンチマークは、法的スペイン語を理解する上で、ベースラインモデルよりも大幅に改善されていることを示している。
また,新たな法的テキストへのモデルの適用を実証するケーススタディを提示し,異なるNLPタスクに対して最高の結果が得られる可能性を強調した。
関連論文リスト
- The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Enhancing Pre-Trained Language Models with Sentence Position Embeddings
for Rhetorical Roles Recognition in Legal Opinions [0.16385815610837165]
法的意見の規模は増え続けており、法的意見の修辞的役割を正確に予測できるモデルを開発することはますます困難になっている。
本稿では,文の位置情報に関する知識によって強化された事前学習言語モデル(PLM)を用いて,修辞的役割を自動的に予測する新しいモデルアーキテクチャを提案する。
LegalEval@SemEval2023コンペティションの注釈付きコーパスに基づいて、我々のアプローチではパラメータが少なく、計算コストが低下することを示した。
論文 参考訳(メタデータ) (2023-10-08T20:33:55Z) - One Law, Many Languages: Benchmarking Multilingual Legal Reasoning for Judicial Support [18.810320088441678]
この研究は、法域に対する新しいNLPベンチマークを導入している。
エンフロング文書(最大50Kトークン)の処理、エンフドメイン固有の知識(法的テキストに具体化されている)、エンフマルチリンガル理解(5つの言語をカバーしている)の5つの重要な側面においてLCMに挑戦する。
我々のベンチマークにはスイスの法体系からの多様なデータセットが含まれており、基礎となる非英語、本質的には多言語法体系を包括的に研究することができる。
論文 参考訳(メタデータ) (2023-06-15T16:19:15Z) - BUFFET: Benchmarking Large Language Models for Few-shot Cross-lingual
Transfer [81.5984433881309]
本稿では,54言語にまたがる15のタスクをシーケンス・ツー・シーケンス・フォーマットで統一するBUFFETを紹介する。
BUFFETは、数発の言語間移動のための厳密で公平な評価フレームワークを確立するように設計されている。
コンテクスト内言語間移動における改善の余地は極めて大きいことが判明した。
論文 参考訳(メタデータ) (2023-05-24T08:06:33Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Evaluation Benchmarks for Spanish Sentence Representations [24.162683655834847]
本稿では,スペイン語のSentEvalとスペイン語のDiscoEvalを紹介する。
さらに,最近トレーニング済みのスペイン語モデルの評価と分析を行い,その能力と限界を明らかにした。
論文 参考訳(メタデータ) (2022-04-15T17:53:05Z) - Lex Rosetta: Transfer of Predictive Models Across Languages,
Jurisdictions, and Legal Domains [40.58709137006848]
言語間で転送可能なGRU(Gated Recurrent Units)を用いたシーケンスラベリングモデルにおけるLanguage-Agnostic Sentence Representationsの使用を分析する。
トレーニング対象のコンテキストを超えて,モデルが一般化されることが分かりました。
複数のコンテキストでモデルをトレーニングすることで、ロバスト性が向上し、これまで見つからなかったコンテキストで評価する際の全体的なパフォーマンスが向上することがわかった。
論文 参考訳(メタデータ) (2021-12-15T04:53:13Z) - LexGLUE: A Benchmark Dataset for Legal Language Understanding in English [15.026117429782996]
我々は,多種多様なNLUタスクのモデル性能を評価するためのデータセットの集合であるLexGLUEベンチマークを紹介する。
また、複数の汎用的および法的指向モデルの評価と分析を行い、後者が複数のタスクにまたがるパフォーマンス改善を一貫して提供することを示した。
論文 参考訳(メタデータ) (2021-10-03T10:50:51Z) - Lawformer: A Pre-trained Language Model for Chinese Legal Long Documents [56.40163943394202]
我々は,中国法定長文理解のためのLongformerベースの事前学習言語モデル,Lawformerをリリースする。
判決の予測,類似事例の検索,法的読解,法的質問の回答など,さまざまな法務上の課題について法務担当者を評価した。
論文 参考訳(メタデータ) (2021-05-09T09:39:25Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating
Cross-lingual Generalization [128.37244072182506]
言語間TRansfer Evaluation of Multilinguals XTREMEは、40言語および9タスクにわたる多言語表現の言語間一般化能力を評価するためのベンチマークである。
我々は、英語でテストされたモデルは、多くのタスクにおいて人間のパフォーマンスに達するが、言語間変換されたモデルの性能にはまだ大きなギャップがあることを示した。
論文 参考訳(メタデータ) (2020-03-24T19:09:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。