論文の概要: SindBERT, the Sailor: Charting the Seas of Turkish NLP
- arxiv url: http://arxiv.org/abs/2510.21364v1
- Date: Fri, 24 Oct 2025 11:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.455247
- Title: SindBERT, the Sailor: Charting the Seas of Turkish NLP
- Title(参考訳): SindBERT, the Sailor: Charting the Seas of Turk NLP
- Authors: Raphael Scheible-Schmitt, Stefan Schweter,
- Abstract要約: SindBERTはトルコの312GBのテキストでスクラッチから訓練されている。
我々はSindBERTを音声タグ付け、エンティティ認識、攻撃的言語検出、TurBLiMP言語受容性ベンチマークで評価した。
- 参考スコア(独自算出の注目度): 0.05570276034354691
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer models have revolutionized NLP, yet many morphologically rich languages remain underrepresented in large-scale pre-training efforts. With SindBERT, we set out to chart the seas of Turkish NLP, providing the first large-scale RoBERTa-based encoder for Turkish. Trained from scratch on 312 GB of Turkish text (mC4, OSCAR23, Wikipedia), SindBERT is released in both base and large configurations, representing the first large-scale encoder-only language model available for Turkish. We evaluate SindBERT on part-of-speech tagging, named entity recognition, offensive language detection, and the TurBLiMP linguistic acceptability benchmark. Our results show that SindBERT performs competitively with existing Turkish and multilingual models, with the large variant achieving the best scores in two of four tasks but showing no consistent scaling advantage overall. This flat scaling trend, also observed for XLM-R and EuroBERT, suggests that current Turkish benchmarks may already be saturated. At the same time, comparisons with smaller but more curated models such as BERTurk highlight that corpus quality and diversity can outweigh sheer data volume. Taken together, SindBERT contributes both as an openly released resource for Turkish NLP and as an empirical case study on the limits of scaling and the central role of corpus composition in morphologically rich languages. The SindBERT models are released under the MIT license and made available in both fairseq and Huggingface formats.
- Abstract(参考訳): トランスフォーマーモデルは、NLPに革命をもたらしたが、多くの形態学的に豊かな言語は、大規模な事前学習の努力には不足している。
SindBERTでは、トルコのNLPの海図を作成し、トルコ初の大規模RoBERTaベースのエンコーダを提供した。
SindBERTは312GBのトルコ語テキスト(mC4、OSCAR23、Wikipedia)でスクラッチからトレーニングされ、ベースと大きな構成の両方でリリースされており、トルコ語で利用可能な最初の大規模エンコーダのみの言語モデルを表している。
我々はSindBERTを音声タグ付け、エンティティ認識、攻撃的言語検出、TurBLiMP言語受容性ベンチマークで評価した。
以上の結果から,SindBERTは既存のトルコ語モデルと多言語モデルと競合関係にあり,大きな変種は4つのタスクのうち2つのタスクで最高のスコアを得るが,全体的なスケーリングの優位性は示さない。
XLM-RやEuroBERTでも見られるこの平らなスケーリング傾向は、現在のトルコのベンチマークが既に飽和している可能性を示唆している。
それと同時に、BERTurkのようなより小さいがよりキュレートされたモデルとの比較では、コーパスの品質と多様性がデータ量より優れていることが強調されている。
SindBERTは、トルコのNLPのための公開リソースとして、また、スケーリングの限界と形態学的に豊かな言語におけるコーパス構成の中心的役割に関する実証的なケーススタディとして、共に貢献している。
SindBERTモデルはMITライセンスでリリースされ、fairseqとHuggingfaceフォーマットの両方で利用可能である。
関連論文リスト
- Turk-LettuceDetect: A Hallucination Detection Models for Turkish RAG Applications [0.0]
本稿では,トルコのRAGアプリケーションに特化して設計された幻覚検出モデルの最初のスイートであるTurk-LettuceDetectを紹介する。
これらのモデルは、質問応答、データ・トゥ・テキスト生成、要約タスクを含む17,790のインスタンスを含むRAGTruthベンチマークデータセットの機械翻訳バージョンでトレーニングされた。
実験の結果,ModernBERTをベースとしたモデルでは,F1スコアの0.7266が完全なテストセットで達成され,特に構造化タスクにおいて高い性能が得られた。
論文 参考訳(メタデータ) (2025-09-22T12:14:11Z) - mmBERT: A Modern Multilingual Encoder with Annealed Language Learning [57.58071656545661]
mmBERTは、多言語テキストの3Tトークンで事前訓練されたエンコーダのみの言語モデルである。
データに1700以上の低リソース言語を追加しています。
分類および検索タスクにおける従来のモデルよりも, mmBERTの方が優れていたことを示す。
論文 参考訳(メタデータ) (2025-09-08T17:08:42Z) - TurkishBERTweet: Fast and Reliable Large Language Model for Social Media
Analysis [4.195270491854775]
約9億のツイートを使って構築されたトルコのソーシャルメディアのための、最初の大規模な事前訓練された言語モデルであるTurrkBERTweetを紹介します。
このモデルは、BERTモデルと同じアーキテクチャで、入力長が小さく、BERTurkより軽量である。
TurkBERTweetは、汎用性において他の選択肢よりも優れており、推論時間が低いことは、大規模なデータセットを処理する上で大きな利点をもたらすことを実証する。
論文 参考訳(メタデータ) (2023-11-29T20:22:44Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - HuBERT-TR: Reviving Turkish Automatic Speech Recognition with
Self-supervised Speech Representation Learning [10.378738776547815]
本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。
HuBERT-TRは、いくつかのトルコのASRデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-10-13T19:46:39Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - GREEK-BERT: The Greeks visiting Sesame Street [25.406207104603027]
BERTのようなトランスフォーマーベースの言語モデルは、いくつかの下流自然言語処理タスクで最先端のパフォーマンスを達成した。
GREEK-BERTはモノリンガルなBERTベースの現代ギリシア語言語モデルである。
論文 参考訳(メタデータ) (2020-08-27T09:36:14Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。