論文の概要: EuroBERT: Scaling Multilingual Encoders for European Languages
- arxiv url: http://arxiv.org/abs/2503.05500v2
- Date: Wed, 26 Mar 2025 18:43:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:50:19.922697
- Title: EuroBERT: Scaling Multilingual Encoders for European Languages
- Title(参考訳): EuroBERT: ヨーロッパ言語のための多言語エンコーダのスケーリング
- Authors: Nicolas Boizard, Hippolyte Gisserot-Boukhlef, Duarte M. Alves, André Martins, Ayoub Hammal, Caio Corro, Céline Hudelot, Emmanuel Malherbe, Etienne Malaboeuf, Fanny Jourdan, Gabriel Hautreux, João Alves, Kevin El-Haddad, Manuel Faysse, Maxime Peyrard, Nuno M. Guerreiro, Patrick Fernandes, Ricardo Rei, Pierre Colombo,
- Abstract要約: 汎用多言語ベクトル表現は、伝統的に双方向エンコーダモデルから得られる。
ヨーロッパおよび広く話されているグローバル言語をカバーする多言語エンコーダのファミリーであるEuroBERTを紹介する。
- 参考スコア(独自算出の注目度): 34.85152487560587
- License:
- Abstract: General-purpose multilingual vector representations, used in retrieval, regression and classification, are traditionally obtained from bidirectional encoder models. Despite their wide applicability, encoders have been recently overshadowed by advances in generative decoder-only models. However, many innovations driving this progress are not inherently tied to decoders. In this paper, we revisit the development of multilingual encoders through the lens of these advances, and introduce EuroBERT, a family of multilingual encoders covering European and widely spoken global languages. Our models outperform existing alternatives across a diverse range of tasks, spanning multilingual capabilities, mathematics, and coding, and natively supporting sequences of up to 8,192 tokens. We also examine the design decisions behind EuroBERT, offering insights into our dataset composition and training pipeline. We publicly release the EuroBERT models, including intermediate training checkpoints, together with our training framework.
- Abstract(参考訳): 検索、回帰、分類に使用される汎用多言語ベクトル表現は、伝統的に双方向エンコーダモデルから得られる。
幅広い適用性にもかかわらず、エンコーダは近年、生成デコーダのみのモデルの発展に隠れている。
しかし、この進歩を推進している多くの革新は本質的にデコーダと結びついていない。
本稿では、これらの進歩のレンズを通して多言語エンコーダの開発を再考し、ヨーロッパおよび広く話されているグローバル言語をカバーする多言語エンコーダのファミリーであるEuroBERTを紹介する。
私たちのモデルは、多言語能力、数学、コーディング、最大8,192トークンのネイティブサポートシーケンスなど、さまざまなタスクにまたがる既存の選択肢よりも優れています。
EuroBERTの設計決定についても検討し、データセットの構成とトレーニングパイプラインに関する洞察を提供しています。
トレーニングフレームワークとともに、中間的なトレーニングチェックポイントを含むEuroBERTモデルを公開しています。
関連論文リスト
- Zero Resource Code-switched Speech Benchmark Using Speech Utterance Pairs For Multiple Spoken Languages [49.6922490267701]
我々は,自己教師型音声エンコーダのコード切替能力を評価するために,ゼロリソースコード切替音声ベンチマークを導入した。
本稿では,音声エンコーダのコードスイッチング能力を評価するために,離散単位に基づく言語モデリングのベースラインシステムを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:58:11Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z) - DeltaLM: Encoder-Decoder Pre-training for Language Generation and
Translation by Augmenting Pretrained Multilingual Encoders [92.90543340071007]
本稿では,事前訓練された多言語エンコーダデコーダモデルDeltaLMを紹介する。
具体的には,事前学習した多言語エンコーダをデコーダで拡張し,自己指導型で事前学習する。
実験により、DeltaLMは自然言語生成と翻訳の両方のタスクにおいて、様々な強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2021-06-25T16:12:10Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Multilingual Machine Translation: Closing the Gap between Shared and
Language-specific Encoder-Decoders [20.063065730835874]
最先端の多言語機械翻訳はユニバーサルエンコーダデコーダに依存している。
本稿では,言語固有のエンコーダデコーダに基づく代替手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T15:02:24Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。