論文の概要: HalleluBERT: Let every token that has meaning bear its weight
- arxiv url: http://arxiv.org/abs/2510.21372v1
- Date: Fri, 24 Oct 2025 11:52:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.459401
- Title: HalleluBERT: Let every token that has meaning bear its weight
- Title(参考訳): HalleluBERT: 意味のあるトークンはすべて、その重みを持て
- Authors: Raphael Scheible-Schmitt,
- Abstract要約: 本稿では,RoBERTa をベースとするエンコーダファミリーである HalleluBERT について紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have advanced NLP, yet Hebrew still lacks a large-scale RoBERTa encoder which is extensively trained. Existing models such as HeBERT, AlephBERT, and HeRo are limited by corpus size, vocabulary, or training depth. We present HalleluBERT, a RoBERTa-based encoder family (base and large) trained from scratch on 49.1~GB of deduplicated Hebrew web text and Wikipedia with a Hebrew-specific byte-level BPE vocabulary. Evaluated on NER and sentiment classification benchmarks, HalleluBERT outperforms both monolingual and multilingual baselines. HalleluBERT sets a new state of the art for Hebrew and highlights the benefits of fully converged monolingual pretraining.
- Abstract(参考訳): トランスフォーマーベースのモデルには高度なNLPがあるが、ヘブライ語には大規模なRoBERTaエンコーダがないため、広く訓練されている。
HeBERT、AlephBERT、HeRoといった既存のモデルは、コーパスサイズ、語彙、トレーニング深度によって制限されている。
本稿では,RoBERTa をベースとするエンコーダファミリーである HalleluBERT について紹介する。
NERと感情分類のベンチマークから評価すると、HaleluBERTは単言語ベースラインと多言語ベースラインの両方を上回っている。
HalleluBERTは、ヘブライ語のための新しい最先端技術を設定し、完全に収束したモノリンガル事前訓練の利点を強調している。
関連論文リスト
- mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - GeistBERT: Breathing Life into German NLP [0.22099217573031676]
GeistBERTは、多種多様なコーパスで漸進的にトレーニングすることで、ドイツ語処理の改善を目指している。
このモデルはダイナミックマスクと固定シーケンス長512トークンを備えた1.3TBのドイツのコーパスで訓練された。
GermEval 2018の細かなテキスト分類において、ベースモデル間での強い成果、新しい最先端(SOTA)の設定などを実現した。
論文 参考訳(メタデータ) (2025-06-13T15:53:17Z) - SuperBPE: Space Travel for Language Models [103.09169510391972]
我々は、単純なプリトークン化カリキュラムをバイトペア符号化(BPE)アルゴリズムに組み込んだ「スーパーワード」トークンライザ「SuperBPE」を導入する。
SuperBPEは、固定されたテキストを符号化し、平均してBPEよりもトークンが最大33%少ない。
我々のモデルは、30の下流タスクにわたるBPEベースラインに対して平均+4.0%の絶対的な改善を達成している。
論文 参考訳(メタデータ) (2025-03-17T17:53:23Z) - NarrowBERT: Accelerating Masked Language Model Pretraining and Inference [50.59811343945605]
そこで我々はNarrowBERTを提案する。NarrowBERTは改良されたトランスフォーマーエンコーダで、マスク付き言語モデルのプリトレーニングのスループットを2ドル以上の値で向上させる。
NarrowBERTは、自己アテンションクエリとフィードフォワード層が事前トレーニング中に各文のマスク付きトークンでのみ動作するように、トランスフォーマーモデルをスペーサー化する。
NarrowBERTは、MNLIのような文符号化タスクにおいて、最小(またはノー)のパフォーマンス劣化を伴って、$3.5times$で推論時にスループットを向上することを示す。
論文 参考訳(メタデータ) (2023-01-11T23:45:50Z) - Introducing BEREL: BERT Embeddings for Rabbinic-Encoded Language [3.0663766446277845]
本稿では,ラビニク・ヘブライ語のための事前学習型言語モデル(PLM)をBelelと呼ぶ。
ベレルは現代ヘブライ語のテキストで教育を受けており、ラビニク・ヘブライ語からその語彙的、形態的、構文的、正書法的な規範で大きく分かれている。
我々は、ヘブライ語ホモグラフの挑戦集合を通して、ラビ語文におけるベレルの優越性を実証する。
論文 参考訳(メタデータ) (2022-08-03T06:59:04Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - belabBERT: a Dutch RoBERTa-based language model applied to psychiatric
classification [0.0]
本稿では,RoBERTaアーキテクチャを拡張した新しいオランダ語モデルであるbelabBERTを提案する。
belabBERTは、大規模なオランダ語コーパス(+32GB)のWebクロードテキストでトレーニングされている。
belabBERT を用いてテキスト分類の強度を評価し,既存の RobBERT モデルと比較した。
論文 参考訳(メタデータ) (2021-06-02T11:50:49Z) - AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your
Hebrew NLP Application With [7.345047237652976]
大規模プリトレーニング言語モデル(PLM)は、言語理解技術の発展においてユビキタスになっています。
PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。
論文 参考訳(メタデータ) (2021-04-08T20:51:29Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。