論文の概要: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation
- arxiv url: http://arxiv.org/abs/2602.21379v1
- Date: Tue, 24 Feb 2026 21:19:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.612386
- Title: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation
- Title(参考訳): MrBERT: 語彙・ドメイン・次元適応による現代多言語エンコーダ
- Authors: Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas,
- Abstract要約: 我々は、ModernBERTアーキテクチャ上に構築され、35の言語とコードで事前訓練された150M-300MパラメータエンコーダのファミリーであるMrBERTを紹介する。
対象適応を通じて、このモデルファミリーは、カタルーニャ語およびスペイン語固有のタスクに関する最先端の成果を達成し、同時に、専門の生物医学および法的な領域における堅牢なパフォーマンスを確立する。
- 参考スコア(独自算出の注目度): 2.956329434147809
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MrBERT, a family of 150M-300M parameter encoders built on the ModernBERT architecture and pre-trained on 35 languages and code. Through targeted adaptation, this model family achieves state-of-the-art results on Catalan- and Spanish-specific tasks, while establishing robust performance across specialized biomedical and legal domains. To bridge the gap between research and production, we incorporate Matryoshka Representation Learning (MRL), enabling flexible vector sizing that significantly reduces inference and storage costs. Ultimately, the MrBERT family demonstrates that modern encoder architectures can be optimized for both localized linguistic excellence and efficient, high-stakes domain specialization. We open source the complete model family on Huggingface.
- Abstract(参考訳): 我々は、ModernBERTアーキテクチャ上に構築され、35の言語とコードで事前訓練された150M-300MパラメータエンコーダのファミリーであるMrBERTを紹介する。
対象適応を通じて、このモデルファミリーは、カタルーニャ語およびスペイン語固有のタスクに関する最先端の成果を達成し、同時に、専門の生物医学および法的な領域における堅牢なパフォーマンスを確立する。
研究と生産のギャップを埋めるために,我々はMatryoshka Representation Learning (MRL)を導入し,推論と記憶コストを大幅に削減する柔軟なベクトルサイズを実現する。
最終的に、MrBERTファミリーは、現代のエンコーダアーキテクチャは、局所的な言語的卓越性と、効率的で高いドメイン特化の両方に最適化できることを示した。
Huggingfaceで完全なモデルファミリをオープンソースにしています。
関連論文リスト
- PLLuM: A Family of Polish Large Language Models [91.61661675434216]
ポーランド語に特化した基盤モデルの最大のオープンソースファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションであるPolish Large Language Modelを提示する。
本研究は,新たに140ビリオンのポーランド語テキストコーパスの構築を含む,事前学習のための開発プロセスについて述べる。
モデルアーキテクチャ、トレーニング手順、およびベースおよび命令調整された派生モデルのアライメント技術について詳述する。
論文 参考訳(メタデータ) (2025-11-05T19:41:49Z) - Forging GEMs: Advancing Greek NLP through Quality-Based Corpus Curation [37.2909720705691]
ギリシャの埋め込みモデル(GEM)は、アーキテクチャの多様性とデータキュレーションの強化を通じて制限に対処するために開発された。
いくつかの大規模で精巧にキュレートされたコーパスで訓練されたモデルのファミリー。
最初のバイリンガル・ギリシャ語・英語の埋め込みモデルは、言語間法的な応用に適合した。
論文 参考訳(メタデータ) (2025-10-22T20:06:48Z) - Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。
我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。
本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-07-03T14:42:49Z) - Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models [93.92762966380793]
大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。
本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。
提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
論文 参考訳(メタデータ) (2024-03-13T06:18:48Z) - Multilinguals at SemEval-2022 Task 11: Complex NER in Semantically
Ambiguous Settings for Low Resource Languages [5.9260305483266205]
我々は、中国語とスペイン語の2つの低リソース言語に対する複雑なNERの課題を解決するために、事前訓練された言語モデルを活用している。
我々はWWM(Whole Word Masking)の手法を用いて、マスク付き言語モデリング目標の性能を向上させる。
論文 参考訳(メタデータ) (2022-07-14T13:00:41Z) - Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。
Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文 参考訳(メタデータ) (2022-05-25T02:51:12Z) - mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。
我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。
その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-04-15T13:02:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。