論文の概要: Spanish Language Models
- arxiv url: http://arxiv.org/abs/2107.07253v1
- Date: Thu, 15 Jul 2021 11:23:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-16 21:10:51.564696
- Title: Spanish Language Models
- Title(参考訳): スペイン語モデル
- Authors: Asier Guti\'errez-Fandi\~no, Jordi Armengol-Estap\'e, Marc P\`amies,
Joan Llop-Palao, Joaqu\'in Silveira-Ocampo, Casimiro Pio Carrino, Aitor
Gonzalez-Agirre, Carme Armentano-Oller, Carlos Rodriguez-Penagos, Marta
Villegas
- Abstract要約: 本稿では,スペインのRoBERTa-baseとRoBERTa-largeモデル,およびそれに対応する性能評価について述べる。
どちらのモデルも、現在知られている最大のスペイン製コーパスを使用して事前訓練され、この作業のために処理された合計570GBのクリーンで非重複のテキストが処理された。
- 参考スコア(独自算出の注目度): 0.04718760920321069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the Spanish RoBERTa-base and RoBERTa-large models, as
well as the corresponding performance evaluations. Both models were pre-trained
using the largest Spanish corpus known to date, with a total of 570GB of clean
and deduplicated text processed for this work, compiled from the web crawlings
performed by the National Library of Spain from 2009 to 2019.
- Abstract(参考訳): 本稿では,スペインのRoBERTa-baseとRoBERTa-largeモデル,およびそれに対応する性能評価について述べる。
どちらのモデルも、2009年から2019年にかけてスペイン国立図書館が実施したウェブクローリングから収集した570GBのクリーンで非重複のテキストを使用して、現在知られている最大のスペインのコーパスを使用して事前訓練された。
関連論文リスト
- Seventeenth-Century Spanish American Notary Records for Fine-Tuning Spanish Large Language Models [2.433690251078502]
我々の資料は、アルゼンチン国立公文書館から入手した17世紀の手書きの記譜集である。
我々のコレクションは、分類やマスキング言語モデリングといったタスクのために、スペイン語のLLMを微調整するのに利用できることを実証する。
私たちのリソースは、過去のテキスト分析の貴重なリソースであり、GitHubで公開されています。
論文 参考訳(メタデータ) (2024-06-09T14:54:22Z) - Spanish Pre-trained BERT Model and Evaluation Data [0.0]
本稿では,スペイン語データのみを対象としたBERTに基づく言語モデルを提案する。
また、スペイン語用のタスクを1つのリポジトリにまとめました。
我々は、我々のモデル、事前トレーニングデータ、およびスペインのベンチマークのコンパイルを公開しました。
論文 参考訳(メタデータ) (2023-08-06T00:16:04Z) - LyricSIM: A novel Dataset and Benchmark for Similarity Detection in
Spanish Song LyricS [52.77024349608834]
歌詞中の意味的類似性に合わせた新しいデータセットとベンチマークを提案する。
このデータセットはもともと2775組のスペイン語の歌で構成されており、63のネイティブアノテータによる集合アノテーション実験で注釈付けされました。
論文 参考訳(メタデータ) (2023-06-02T07:48:20Z) - Parallel Corpus for Indigenous Language Translation: Spanish-Mazatec and
Spanish-Mixtec [51.35013619649463]
本稿では,機械翻訳(MT)タスクのための並列型スパニッシュ・マザテックとスパニッシュ・ミクテック・コーパスを提案する。
本研究では, トランスフォーマー, トランスファーラーニング, 微調整済み多言語MTモデルの3つのアプローチを用いて, 収集したコーパスのユーザビリティを評価した。
その結果,Mixtecのデータセットサイズ(9,799文),Mixtecの13,235文)が翻訳性能に影響を及ぼし,対象言語として使用する場合のネイティブ言語の性能が向上した。
論文 参考訳(メタデータ) (2023-05-27T08:03:44Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - Lessons learned from the evaluation of Spanish Language Models [27.653133576469276]
本稿では,スペイン語の言語モデルと,以下の結果との比較を行う。
我々は、その根底にある要因を理解するために、さらなる研究の必要性を論じる。
スペイン語のための言語技術開発における最近の活動は歓迎されるが、我々の結果は、言語モデルの構築は依然としてオープンでリソースの多い問題であることを示している。
論文 参考訳(メタデータ) (2022-12-16T10:33:38Z) - Evaluation Benchmarks for Spanish Sentence Representations [24.162683655834847]
本稿では,スペイン語のSentEvalとスペイン語のDiscoEvalを紹介する。
さらに,最近トレーニング済みのスペイン語モデルの評価と分析を行い,その能力と限界を明らかにした。
論文 参考訳(メタデータ) (2022-04-15T17:53:05Z) - PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文 参考訳(メタデータ) (2021-10-16T11:44:23Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Predicting metrical patterns in Spanish poetry with language models [0.0]
スペイン語で利用可能な自動メートル法パターン識別システムと、同じタスクで訓練された微調整言語モデルによる実験とを比較した。
以上の結果から,BERTをベースとしたモデルでは,スペイン語スキャンに十分な構造情報を保持できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-11-18T22:33:09Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。