論文の概要: Pretraining and Benchmarking Modern Encoders for Latvian
- arxiv url: http://arxiv.org/abs/2603.15005v1
- Date: Mon, 16 Mar 2026 09:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:57.903368
- Title: Pretraining and Benchmarking Modern Encoders for Latvian
- Title(参考訳): ラトビアにおけるモダンエンコーダの事前学習とベンチマーク
- Authors: Arturs Znotins,
- Abstract要約: ラトビア語のような低リソースの言語は、未学習のコーパスでは不足している。
本稿では,RoBERTa,DeBERTaV3,ModernBERTアーキテクチャに基づくラトビア固有のエンコーダスイートを事前学習することで,このギャップに対処する。
我々のモデルは、最近のアーキテクチャと効率の進歩の恩恵を受けながら、既存のモノリンガルエンコーダやマルチリンガルエンコーダと競合する。
- 参考スコア(独自算出の注目度): 0.16752182911522517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-only transformers remain essential for practical NLP tasks. While recent advances in multilingual models have improved cross-lingual capabilities, low-resource languages such as Latvian remain underrepresented in pretraining corpora, and few monolingual Latvian encoders currently exist. We address this gap by pretraining a suite of Latvian-specific encoders based on RoBERTa, DeBERTaV3, and ModernBERT architectures, including long-context variants, and evaluating them across a diverse set of Latvian diagnostic and linguistic benchmarks. Our models are competitive with existing monolingual and multilingual encoders while benefiting from recent architectural and efficiency advances. Our best model, lv-deberta-base (111M parameters), achieves the strongest overall performance, outperforming larger multilingual baselines and prior Latvian-specific encoders. We release all pretrained models and evaluation resources to support further research and practical applications in Latvian NLP.
- Abstract(参考訳): エンコーダのみのトランスフォーマーは、実用的なNLPタスクに必須である。
近年の多言語モデルの進歩により言語間能力は向上したが、ラトビアのような低リソース言語は訓練前のコーパスでは不足しており、現在ではモノリンガルのラトビアエンコーダはほとんど存在しない。
我々は,RoBERTa,DeBERTaV3,ModernBERTアーキテクチャをベースとしたラトビア固有のエンコーダのスイートを事前トレーニングし,様々なラトビアの診断および言語ベンチマークで評価することで,このギャップに対処する。
我々のモデルは、最近のアーキテクチャと効率の進歩の恩恵を受けながら、既存のモノリンガルエンコーダやマルチリンガルエンコーダと競合する。
我々の最良モデルである lv-deberta-base (111M パラメータ) は、より大きな多言語ベースラインとラトビア固有のエンコーダよりも優れた性能を達成する。
我々は、ラトビア NLP のさらなる研究および実践的応用を支援するために、事前訓練されたモデルと評価リソースを全てリリースする。
関連論文リスト
- mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - Statement-Tuning Enables Efficient Cross-lingual Generalization in Encoder-only Models [7.467951065154891]
大言語モデル(LLM)はゼロショットと少数ショットのタスクで優れているが、エンコーダのみのモデルで同様のパフォーマンスを達成することは困難である。
最近の研究はステートメントチューニングを用いてゼロショットの一般化に適応し、タスクを有限テンプレートに再構成する。
このアプローチを多言語NLPに拡張し、エンコーダがゼロショット言語間一般化を達成できるかどうかを探索する。
論文 参考訳(メタデータ) (2025-06-02T12:28:03Z) - EuroBERT: Scaling Multilingual Encoders for European Languages [34.85152487560587]
汎用多言語ベクトル表現は、伝統的に双方向エンコーダモデルから得られる。
ヨーロッパおよび広く話されているグローバル言語をカバーする多言語エンコーダのファミリーであるEuroBERTを紹介する。
論文 参考訳(メタデータ) (2025-03-07T15:13:58Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Exploring Pretraining via Active Forgetting for Improving Cross Lingual Transfer for Decoder Language Models [7.998168689120558]
大規模言語モデル(LLM)は、多数のNLPタスクにおいて例外的な機能を示す。
英語以外の言語に対するそのようなモデルの有効性は制限されることが多い。
能動的忘れを前提としたLLMは,新しい言語や目に見えない言語に適応する上で非常に有効であることを示す。
論文 参考訳(メタデータ) (2024-10-21T16:33:16Z) - Language Models on a Diet: Cost-Efficient Development of Encoders for Closely-Related Languages via Additional Pretraining [4.38070902806635]
クロアチア語、セルビア語、ボスニア語、モンテネグロ語のベンチマークを設定しました。
我々は、利用可能な多言語モデルの追加事前学習により、専用のin-scratchモデルに匹敵する性能が得られることを示す。
また、Slovenianの場合、隣接する言語は、最終モデルの性能にほとんど、あるいは全く損なわない追加の事前訓練に含めることができることを示す。
論文 参考訳(メタデータ) (2024-04-08T11:55:44Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。