論文の概要: NeoDictaBERT: Pushing the Frontier of BERT models for Hebrew
- arxiv url: http://arxiv.org/abs/2510.20386v1
- Date: Thu, 23 Oct 2025 09:34:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.732848
- Title: NeoDictaBERT: Pushing the Frontier of BERT models for Hebrew
- Title(参考訳): NeoDictaBERT:ヘブライ語におけるBERTモデルのフロンティア
- Authors: Shaltiel Shmidman, Avi Shmidman, Moshe Koppel,
- Abstract要約: 我々はNeoDictaBERTとNeoDictaBERT-bilingualを紹介した。
我々は,ヘブライNLPにおける研究・開発を進めるための目標の一環として,トレーニングプロセスと各種ベンチマークの報告結果をコミュニティにリリースする。
- 参考スコア(独自算出の注目度): 5.9797303102481765
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Since their initial release, BERT models have demonstrated exceptional performance on a variety of tasks, despite their relatively small size (BERT-base has ~100M parameters). Nevertheless, the architectural choices used in these models are outdated compared to newer transformer-based models such as Llama3 and Qwen3. In recent months, several architectures have been proposed to close this gap. ModernBERT and NeoBERT both show strong improvements on English benchmarks and significantly extend the supported context window. Following their successes, we introduce NeoDictaBERT and NeoDictaBERT-bilingual: BERT-style models trained using the same architecture as NeoBERT, with a dedicated focus on Hebrew texts. These models outperform existing ones on almost all Hebrew benchmarks and provide a strong foundation for downstream tasks. Notably, the NeoDictaBERT-bilingual model shows strong results on retrieval tasks, outperforming other multilingual models of similar size. In this paper, we describe the training process and report results across various benchmarks. We release the models to the community as part of our goal to advance research and development in Hebrew NLP.
- Abstract(参考訳): 最初のリリース以来、BERTモデルは比較的小さなサイズ(BERTベースには約100万のパラメータがある)にもかかわらず、様々なタスクで例外的な性能を示してきた。
しかしながら、これらのモデルで使用されるアーキテクチャの選択は、Llama3やQwen3のような新しいトランスフォーマーベースのモデルと比較して時代遅れである。
近年、このギャップを埋めるためにいくつかのアーキテクチャが提案されている。
ModernBERTとNeoBERTはどちらも、英語のベンチマークを強く改善し、サポート対象のコンテキストウィンドウを大幅に拡張した。
その成功に続いて、NeoDictaBERTとNeoDictaBERT-bilingualを紹介します。
これらのモデルは、ほぼすべてのHebrewベンチマークで既存のモデルよりも優れており、下流タスクの強力な基盤を提供する。
特に、NeoDictaBERT-bilingualモデルは、検索タスクにおいて強力な結果を示し、類似サイズの他の多言語モデルよりも優れている。
本稿では,トレーニングプロセスについて記述し,様々なベンチマークで結果を報告する。
我々は,ヘブライNLPの研究開発を進めるという目標の一環として,これらのモデルをコミュニティにリリースする。
関連論文リスト
- mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - DictaBERT: A State-of-the-Art BERT Suite for Modern Hebrew [2.421705925711388]
DictaBERTは、現代ヘブライ語のための最先端のトレーニング済みBERTモデルである。
ヘブライ語テキストの分析において,3つの基礎的なタスクを実行するために設計した3つの細調整バージョンをリリースする。
論文 参考訳(メタデータ) (2023-08-31T12:43:18Z) - Data-Efficient French Language Modeling with CamemBERTa [0.0]
本稿では,DeBERTaV3アーキテクチャとトレーニング目標に基づいて構築された,フランスのDeBERTaモデルであるCamemBERTaを紹介する。
我々は、さまざまなフランス語の下流タスクとデータセットに対して、我々のモデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-02T12:45:34Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with
Gradient-Disentangled Embedding Sharing [117.41016786835452]
本稿では,DeBERTaモデルの改良を目的とした,事前学習型言語モデルDeBERTaV3を提案する。
ELECTRAでのバニラ埋め込み共有は、トレーニング効率とモデルパフォーマンスを損なう。
そこで本研究では、タグ・オブ・ウォーのダイナミクスを回避するために、新しい勾配距離の埋め込み方式を提案する。
論文 参考訳(メタデータ) (2021-11-18T06:48:00Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - RobBERT: a Dutch RoBERTa-based Language Model [9.797319790710711]
我々はRoBERTaを使ってRobBERTと呼ばれるオランダ語のモデルをトレーニングします。
各種タスクにおけるその性能および微調整データセットサイズの重要性を計測する。
RobBERTは様々なタスクの最先端の結果を改善し、特に小さなデータセットを扱う場合、他のモデルよりもはるかに優れています。
論文 参考訳(メタデータ) (2020-01-17T13:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。