論文の概要: Spanish Legalese Language Model and Corpora
- arxiv url: http://arxiv.org/abs/2110.12201v1
- Date: Sat, 23 Oct 2021 12:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 21:51:47.557423
- Title: Spanish Legalese Language Model and Corpora
- Title(参考訳): スペインの法律言語モデルとコーポラ
- Authors: Asier Guti\'errez-Fandi\~no, Jordi Armengol-Estap\'e, Aitor
Gonzalez-Agirre, Marta Villegas
- Abstract要約: 法的スラングは、語彙、意味論、フレーズ理解において非常に複雑であるため、独自のスペイン語の変種と考えることができる。
この作業のために、異なるソースから法的ドメインコーパスを収集し、モデルを生成し、スペインの一般的なドメインタスクに対して評価しました。
- 参考スコア(独自算出の注目度): 0.0629976670819788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There are many Language Models for the English language according to its
worldwide relevance. However, for the Spanish language, even if it is a widely
spoken language, there are very few Spanish Language Models which result to be
small and too general. Legal slang could be think of a Spanish variant on its
own as it is very complicated in vocabulary, semantics and phrase
understanding. For this work we gathered legal-domain corpora from different
sources, generated a model and evaluated against Spanish general domain tasks.
The model provides reasonable results in those tasks.
- Abstract(参考訳): 英語の言語モデルには、その世界的関連性に応じて数多く存在する。
しかし、スペイン語では、たとえ広く話されている言語であっても、小さすぎて一般的すぎるようなスペイン語のモデルはほとんどない。
法的スラングは、語彙、意味論、フレーズ理解において非常に複雑であるため、独自のスペイン語の変種と考えることができる。
この作業のために、異なるソースから法的ドメインコーパスを収集し、モデルを生成し、スペインの一般的なドメインタスクに対して評価しました。
モデルはこれらのタスクに合理的な結果をもたらす。
関連論文リスト
- MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - The Less the Merrier? Investigating Language Representation in
Multilingual Models [8.632506864465501]
多言語モデルにおける言語表現について検討する。
我々は、コミュニティ中心のモデルが、低リソース言語で同じ家系の言語を区別する上で、より良い性能を発揮することを実験から観察した。
論文 参考訳(メタデータ) (2023-10-20T02:26:34Z) - Lost in Translation: Large Language Models in Non-English Content
Analysis [0.0]
大規模言語モデルは、オンラインで言語を分析し、生成するAIシステムを構築する上で、支配的なアプローチとなっている。
近年、研究者やテクノロジー企業は、大規模言語モデルの能力を英語以外の言語にも拡張しようと試みている。
論文 参考訳(メタデータ) (2023-06-12T19:10:47Z) - Lessons learned from the evaluation of Spanish Language Models [27.653133576469276]
本稿では,スペイン語の言語モデルと,以下の結果との比較を行う。
我々は、その根底にある要因を理解するために、さらなる研究の必要性を論じる。
スペイン語のための言語技術開発における最近の活動は歓迎されるが、我々の結果は、言語モデルの構築は依然としてオープンでリソースの多い問題であることを示している。
論文 参考訳(メタデータ) (2022-12-16T10:33:38Z) - Language Models are Multilingual Chain-of-Thought Reasoners [83.37148309771378]
本稿では,250の小学校数学問題を10の類型的多言語に手動で翻訳することで,多言語学級数学のベンチマークを導入する。
MGSM問題をチェーン・オブ・ソートにより解く能力は,モデルスケールの増大とともに出現する。
言語モデルの多言語推論能力は他のタスクにも及んでいることを示す。
論文 参考訳(メタデータ) (2022-10-06T17:03:34Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Evaluation Benchmarks for Spanish Sentence Representations [24.162683655834847]
本稿では,スペイン語のSentEvalとスペイン語のDiscoEvalを紹介する。
さらに,最近トレーニング済みのスペイン語モデルの評価と分析を行い,その能力と限界を明らかにした。
論文 参考訳(メタデータ) (2022-04-15T17:53:05Z) - Do Multilingual Language Models Capture Differing Moral Norms? [71.52261949766101]
大量多言語文表現は、未処理データの大規模なコーパスに基づいて訓練される。
これは、高資源言語からの道徳的判断を含む文化的価値をモデルが把握する原因となる可能性がある。
特定の言語におけるデータ不足は、ランダムで潜在的に有害な信念を発達させる可能性がある。
論文 参考訳(メタデータ) (2022-03-18T12:26:37Z) - A large scale lexical and semantic analysis of Spanish language
variations in Twitter [2.3511629321667096]
この写本は、世界中の26のスペイン語を話す国間での語彙的・意味的な関係について広く分析している。
我々は、Twitterのジオタグ付き公開ストリームの4年間を分析し、さまざまな国のスペイン語語彙を広範囲に調査した。
論文 参考訳(メタデータ) (2021-10-12T16:21:03Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。