論文の概要: TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish
- arxiv url: http://arxiv.org/abs/2512.23065v3
- Date: Mon, 05 Jan 2026 10:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.652457
- Title: TabiBERT: A Large-Scale ModernBERT Foundation Model and A Unified Benchmark for Turkish
- Title(参考訳): TabiBERT: 大規模ModernBERT財団モデルとトルコの統一ベンチマーク
- Authors: Melikşah Türker, A. Ebrar Kızıloğlu, Onur Güngör, Susan Üsküdarlı,
- Abstract要約: TabiBERTはModernBERTアーキテクチャをベースとしたモノリンガルのトルコ語エンコーダである。
8,192トークンのコンテキスト長(16xオリジナルBERT)をサポートし、最大2.65倍のスピードアップを実現し、GPUメモリ使用量を削減する。
タビベンチで77.58を獲得し、BERTurkを1.62ポイント上回り、8つのカテゴリーのうち5つの最先端技術を確立した。
- 参考スコア(独自算出の注目度): 0.7233065479782755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since the inception of BERT, encoder-only Transformers have evolved significantly in computational efficiency, training stability, and long-context modeling. ModernBERT consolidates these advances by integrating Rotary Positional Embeddings (RoPE), FlashAttention, and refined normalization. Despite these developments, Turkish NLP lacks a monolingual encoder trained from scratch, incorporating such modern architectural paradigms. This work introduces TabiBERT, a monolingual Turkish encoder based on ModernBERT architecture trained from scratch on a large, curated corpus. TabiBERT is pre-trained on one trillion tokens sampled from an 84.88B token multi-domain corpus: web text (73%), scientific publications (20%), source code (6%), and mathematical content (0.3%). It supports 8,192-token context length (16x original BERT), achieves up to 2.65x inference speedup, and reduces GPU memory consumption, enabling larger batch sizes. We introduce TabiBench with 28 datasets across eight task categories with standardized splits and protocols, evaluated using GLUE-style macro-averaging. TabiBERT attains 77.58 on TabiBench, outperforming BERTurk by 1.62 points and establishing state-of-the-art on five of eight categories, with particularly strong gains on question answering (+9.55 points), code retrieval (+2.41 points), and academic understanding (+0.66 points). Compared with task-specific prior best results, including specialized models like TurkishBERTweet, TabiBERT achieves +1.47 average improvement, indicating robust cross-domain generalization. We release model weights, training configurations, and evaluation code for transparent, reproducible Turkish encoder research.
- Abstract(参考訳): BERTの登場以来、エンコーダのみのトランスフォーマーは計算効率、訓練安定性、長文モデリングにおいて著しく進化してきた。
ModernBERTは、Rotary Positional Embeddings (RoPE)、FlashAttention、改良された正規化を統合することで、これらの進歩を統合する。
これらの発展にもかかわらず、トルコのNLPは、そのような近代的なアーキテクチャパラダイムを取り入れて、ゼロから訓練された単言語エンコーダを欠いている。
この研究は、巨大なキュレートされたコーパスでスクラッチからトレーニングされたModernBERTアーキテクチャに基づく単言語トルコ語エンコーダであるTabiBERTを紹介した。
TabiBERTは84.88Bトークンの多ドメインコーパスからサンプリングされた1兆個のトークン(ウェブテキスト(73%)、科学出版物(20%)、ソースコード(6%)、数学的内容(0.3%)で事前訓練されている。
8,192トンのコンテキスト長(16xオリジナルBERT)をサポートし、最大2.65倍の推論スピードアップを実現し、GPUメモリの消費を削減し、バッチサイズを大きくする。
GLUE-style macro-averaging を用いて評価した,標準化された分割とプロトコルを備えた8つのタスクカテゴリに28のデータセットを持つ TabiBench を紹介した。
TabiBERT は TabiBench 上で 77.58 を獲得し、BERTurk を1.62 ポイント上回り、質問応答(+9.55 ポイント)、コード検索(+2.41 ポイント)、学術的理解(+0.66 ポイント)の5つのカテゴリで最先端技術を確立する。
TurkBERTweetのような特殊なモデルを含むタスク固有の事前の最良の結果と比較すると、TabiBERTは+1.47の平均的な改善を達成し、堅牢なクロスドメインの一般化を示している。
我々は、透過的で再現可能なトルコエンコーダ研究のためのモデルウェイト、トレーニング構成、評価コードをリリースする。
関連論文リスト
- TurkColBERT: A Benchmark of Dense and Late-Interaction Models for Turkish Information Retrieval [0.0]
我々は、トルコ検索のための高密度エンコーダと遅延相互作用モデルを比較した最初のベンチマークであるTurkColBERTを紹介する。
我々の2段階適応パイプラインは、トルコのNLI/STSタスクで英語と多言語エンコーダを微調整し、ColBERTスタイルのレトリバーに変換する。
我々は、科学的、経済的、議論的な領域をカバーする5つのトルコのBEIRデータセットの10モデルを評価した。
論文 参考訳(メタデータ) (2025-11-20T16:42:21Z) - SindBERT, the Sailor: Charting the Seas of Turkish NLP [0.05570276034354691]
SindBERTはトルコの312GBのテキストでスクラッチから訓練されている。
我々はSindBERTを音声タグ付け、エンティティ認識、攻撃的言語検出、TurBLiMP言語受容性ベンチマークで評価した。
論文 参考訳(メタデータ) (2025-10-24T11:48:49Z) - The Digital Sous Chef -- A Comparative Study on Fine-Tuning Language Models for Recipe Generation [2.497854684676663]
本稿では,GPT-2大モデル(774M)とGPT-2小モデル(124M)と,RecipeDB 5-cuisineコーパス上の従来のLSTM/RNNベースラインとを比較検討した。
キーとなるコントリビューションは、23個の共通分数トークンとカスタム構造マーカーで語彙を拡大するトークン化戦略です。
論文 参考訳(メタデータ) (2025-08-20T13:53:13Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - MosaicBERT: A Bidirectional Encoder Optimized for Fast Pretraining [10.421048804389343]
本稿では,BERTスタイルのエンコーダアーキテクチャであるMosaicBERTを紹介する。
C4データセットのスクラッチから事前トレーニングされた場合、このベースモデルは、約20ドルで8 A100 80 GB GPU上で1.13時間の平均GLUEスコア79.6を達成する。
この事前トレーニングでの実証的なスピードアップにより、研究者やエンジニアは既存のジェネリックモデルの微調整ではなく、BERTスタイルのカスタムモデルを低コストで事前トレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-29T06:05:19Z) - oBERTa: Improving Sparse Transfer Learning via improved initialization,
distillation, and pruning regimes [82.99830498937729]
oBERTaは自然言語処理のための使いやすい言語モデルのセットです。
NLPの実践者はモデル圧縮の専門知識なしで3.8倍から24.3倍の高速モデルを得ることができる。
代表的な7つのNLPタスクにおけるoBERTaの利用について検討する。
論文 参考訳(メタデータ) (2023-03-30T01:37:19Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - DeBERTa: Decoding-enhanced BERT with Disentangled Attention [119.77305080520718]
2つの新しい手法を用いてBERTモデルとRoBERTaモデルを改善する新しいモデルアーキテクチャDeBERTaを提案する。
これらの手法により,モデル事前学習の効率化と,自然言語理解(NLU)と自然言語生成(NLG)の両方の性能向上が期待できる。
論文 参考訳(メタデータ) (2020-06-05T19:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。