Fugu-MT 論文翻訳(概要): MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

論文の概要: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation

arxiv url: http://arxiv.org/abs/2602.21379v1
Date: Tue, 24 Feb 2026 21:19:40 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.612386
Title: MrBERT: Modern Multilingual Encoders via Vocabulary, Domain, and Dimensional Adaptation
Title（参考訳）: MrBERT: 語彙・ドメイン・次元適応による現代多言語エンコーダ
Authors: Daniel Tamayo, Iñaki Lacunza, Paula Rivera-Hidalgo, Severino Da Dalt, Javier Aula-Blasco, Aitor Gonzalez-Agirre, Marta Villegas,
Abstract要約: 我々は、ModernBERTアーキテクチャ上に構築され、35の言語とコードで事前訓練された150M-300MパラメータエンコーダのファミリーであるMrBERTを紹介する。対象適応を通じて、このモデルファミリーは、カタルーニャ語およびスペイン語固有のタスクに関する最先端の成果を達成し、同時に、専門の生物医学および法的な領域における堅牢なパフォーマンスを確立する。
参考スコア（独自算出の注目度）: 2.956329434147809
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce MrBERT, a family of 150M-300M parameter encoders built on the ModernBERT architecture and pre-trained on 35 languages and code. Through targeted adaptation, this model family achieves state-of-the-art results on Catalan- and Spanish-specific tasks, while establishing robust performance across specialized biomedical and legal domains. To bridge the gap between research and production, we incorporate Matryoshka Representation Learning (MRL), enabling flexible vector sizing that significantly reduces inference and storage costs. Ultimately, the MrBERT family demonstrates that modern encoder architectures can be optimized for both localized linguistic excellence and efficient, high-stakes domain specialization. We open source the complete model family on Huggingface.
Abstract（参考訳）: 我々は、ModernBERTアーキテクチャ上に構築され、35の言語とコードで事前訓練された150M-300MパラメータエンコーダのファミリーであるMrBERTを紹介する。対象適応を通じて、このモデルファミリーは、カタルーニャ語およびスペイン語固有のタスクに関する最先端の成果を達成し、同時に、専門の生物医学および法的な領域における堅牢なパフォーマンスを確立する。研究と生産のギャップを埋めるために,我々はMatryoshka Representation Learning (MRL)を導入し,推論と記憶コストを大幅に削減する柔軟なベクトルサイズを実現する。最終的に、MrBERTファミリーは、現代のエンコーダアーキテクチャは、局所的な言語的卓越性と、効率的で高いドメイン特化の両方に最適化できることを示した。 Huggingfaceで完全なモデルファミリをオープンソースにしています。

関連論文リスト

PLLuM: A Family of Polish Large Language Models [91.61661675434216]
ポーランド語に特化した基盤モデルの最大のオープンソースファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションファウンデーションであるPolish Large Language Modelを提示する。本研究は,新たに140ビリオンのポーランド語テキストコーパスの構築を含む,事前学習のための開発プロセスについて述べる。モデルアーキテクチャ、トレーニング手順、およびベースおよび命令調整された派生モデルのアライメント技術について詳述する。
論文参考訳（メタデータ） (2025-11-05T19:41:49Z)
Forging GEMs: Advancing Greek NLP through Quality-Based Corpus Curation [37.2909720705691]
ギリシャの埋め込みモデル(GEM)は、アーキテクチャの多様性とデータキュレーションの強化を通じて制限に対処するために開発された。いくつかの大規模で精巧にキュレートされたコーパスで訓練されたモデルのファミリー。最初のバイリンガル・ギリシャ語・英語の埋め込みモデルは、言語間法的な応用に適合した。
論文参考訳（メタデータ） (2025-10-22T20:06:48Z)
LLMic: Romanian Foundation Language Model [76.09455151754062]
ルーマニア語に特化して設計された基礎言語モデルである LLMic について述べる。英語からルーマニア語への翻訳作業において,事前学習後の言語翻訳のための微調整 LLMic が既存の解よりも優れていることを示す。
論文参考訳（メタデータ） (2025-01-13T22:14:45Z)
LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。 LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。 5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文参考訳（メタデータ） (2025-01-01T15:43:07Z)
Investigating Decoder-only Large Language Models for Speech-to-text Translation [39.17113782374464]
大規模言語モデル (LLM) は、様々なドメインにまたがる例外的な推論能力、一般化可能性、およびレイテンシで知られている。我々は,LLMが直接符号化された音声表現を消費し,テキスト翻訳を生成することができるデコーダのみのアーキテクチャを提案する。本モデルでは,プロプライエタリなデータを必要としないモデル間で,CoVoST 2およびFLEURSの最先端性能を実現する。
論文参考訳（メタデータ） (2024-07-03T14:42:49Z)
SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文参考訳（メタデータ） (2024-05-07T20:11:44Z)
Mastering Text, Code and Math Simultaneously via Fusing Highly Specialized Language Models [93.92762966380793]
大規模言語モデル(LLM)は、3つのドメインすべてにまたがって高いパフォーマンスを同時に達成しようと試みている。本稿では,すでに高度に特殊化されているモデルを融合する手法を提案する。提案されているハウジングフレームワークであるUltraFuserは、すでに言語、コーディング、数学について十分に訓練されている3つの異なるスペシャリストで構成されている。
論文参考訳（メタデータ） (2024-03-13T06:18:48Z)
Multilinguals at SemEval-2022 Task 11: Complex NER in Semantically Ambiguous Settings for Low Resource Languages [5.9260305483266205]
我々は、中国語とスペイン語の2つの低リソース言語に対する複雑なNERの課題を解決するために、事前訓練された言語モデルを活用している。我々はWWM(Whole Word Masking)の手法を用いて、マスク付き言語モデリング目標の性能を向上させる。
論文参考訳（メタデータ） (2022-07-14T13:00:41Z)
Sparse*BERT: Sparse Models Generalize To New tasks and Domains [79.42527716035879]
本稿では, 階層的非構造的マグニチュード・プルーニング(Gradual Unstructured Magnitude Pruning)を用いて, ドメイン間およびタスク間を移動可能なモデルについて検討する。 Sparse*BERTは、非構造化バイオメディカルテキスト上で圧縮されたアーキテクチャを事前学習することで、SparseBioBERTとなることを示す。
論文参考訳（メタデータ） (2022-05-25T02:51:12Z)
mGPT: Few-Shot Learners Go Multilingual [1.4354798873010843]
本稿では,60言語で訓練された13億のパラメータと13億のパラメータを持つ2つの自己回帰型GPT様モデルを提案する。我々はGPT-2ソースとスパースアテンション機構を用いてGPT-3アーキテクチャを再現する。その結果得られたモデルは、Facebookが最近リリースしたXGLMモデルと同等のパフォーマンスを示している。
論文参考訳（メタデータ） (2022-04-15T13:02:33Z)
Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。 AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文参考訳（メタデータ） (2020-10-15T18:34:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。