論文の概要: PortBERT: Navigating the Depths of Portuguese Language Models
- arxiv url: http://arxiv.org/abs/2606.02100v1
- Date: Mon, 01 Jun 2026 11:32:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.887653
- Title: PortBERT: Navigating the Depths of Portuguese Language Models
- Title(参考訳): PortBERT: ポルトガル語モデルの深さをナビゲートする
- Authors: Raphael Scheible-Schmitt, Henry He, Armando B. Mendes,
- Abstract要約: PortBERTはRoBERTaをベースとしたポルトガル語の言語モデルである。
450GB以上のデコプリケートされたmC4とOSCAR23を、fairseqを使ってCulturaXからゼロからトレーニングした。
どちらのモデルも、既存の単言語モデルと多言語モデルに一致するか、あるいは超えるように競合的に実行する。
- 参考スコア(独自算出の注目度): 0.038887448816036306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer models dominate modern NLP, but efficient, language-specific models remain scarce. In Portuguese, most focus on scale or accuracy, often neglecting training and deployment efficiency. In the present work, we introduce PortBERT, a family of RoBERTa-based language models for Portuguese, designed to balance performance and efficiency. Trained from scratch on over 450 GB of deduplicated and filtered mC4 and OSCAR23 from CulturaX using fairseq, PortBERT leverages byte-level BPE tokenization and stable pre-training routines across both GPU and TPU processors. We release two variants, PortBERT base and PortBERT large, and evaluate them on ExtraGLUE, a suite of translated GLUE and SuperGLUE tasks. Both models perform competitively, matching or surpassing existing monolingual and multilingual models. Beyond accuracy, we report training and inference times as well as fine-tuning throughput, providing practical insights into model efficiency. PortBERT thus complements prior work by addressing the underexplored dimension of compute-performance tradeoffs in Portuguese NLP. We release all models on Huggingface and provide fairseq checkpoints to support further research and applications.
- Abstract(参考訳): トランスフォーマーモデルは現代のNLPを支配しているが、効率的で言語固有のモデルはほとんど残っていない。
ポルトガルでは、ほとんどの場合、トレーニングやデプロイメントの効率を無視して、スケールや正確さに重点を置いている。
本稿では,RoBERTaをベースとしたポルトガル語用言語モデルであるPortBERTを紹介し,性能と効率のバランスを図った。
fairseqを使用してCulturaXから450GB以上の分離およびフィルタリングされたmC4とOSCAR23をスクラッチからトレーニングし、PortBERTはバイトレベルのBPEトークン化とGPUおよびTPUプロセッサ間の安定した事前トレーニングルーチンを活用する。
我々はPortBERTベースとPortBERTの2つのバージョンをリリースし、翻訳されたGLUEとSuperGLUEタスクのスイートであるExtraGLUEで評価する。
どちらのモデルも、既存の単言語モデルと多言語モデルに一致するか、あるいは超えるように競合的に実行する。
正確性以外にも、トレーニングや推論時間、微調整のスループットを報告し、モデル効率に関する実践的な洞察を提供する。
このためPortBERTは、ポルトガルのNLPにおける計算性能トレードオフの未解決次元に対処することで、以前の作業を補完する。
我々はHuggingfaceで全てのモデルをリリースし、さらなる研究とアプリケーションをサポートするためにフェアセクチェックポイントを提供します。
関連論文リスト
- GeistBERT: Breathing Life into German NLP [0.22099217573031676]
GeistBERTは、多種多様なコーパスで漸進的にトレーニングすることで、ドイツ語処理の改善を目指している。
このモデルはダイナミックマスクと固定シーケンス長512トークンを備えた1.3TBのドイツのコーパスで訓練された。
GermEval 2018の細かなテキスト分類において、ベースモデル間での強い成果、新しい最先端(SOTA)の設定などを実現した。
論文 参考訳(メタデータ) (2025-06-13T15:53:17Z) - PeLLE: Encoder-based language models for Brazilian Portuguese based on
open data [0.40485107444088947]
本稿では,ブラジルポルトガル語のRoBERTaアーキテクチャに基づく大規模言語モデルのファミリーであるPeLLEについて紹介する。
既存の多言語およびPT-BRによる事前学習型トランスフォーマーベースLLMエンコーダに対するPeLLEモデルの評価を行った。
論文 参考訳(メタデータ) (2024-02-29T14:34:03Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - PAGnol: An Extra-Large French Generative Model [53.40189314359048]
本稿では,フランスのGPTモデルのコレクションであるPAGnolを紹介する。
スケーリング法則を用いて,CamemBERTと同じ計算予算でPAGnol-XLを効率的に訓練する。
論文 参考訳(メタデータ) (2021-10-16T11:44:23Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Revisiting Pre-Trained Models for Chinese Natural Language Processing [73.65780892128389]
我々は、中国語の事前学習言語モデルを再検討し、英語以外の言語での有効性について検討する。
また,RoBERTaを改良したMacBERTモデルを提案する。
論文 参考訳(メタデータ) (2020-04-29T02:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。