論文の概要: Chinese ModernBERT with Whole-Word Masking
- arxiv url: http://arxiv.org/abs/2510.12285v1
- Date: Tue, 14 Oct 2025 08:41:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 19:02:32.255266
- Title: Chinese ModernBERT with Whole-Word Masking
- Title(参考訳): 全語マスキングによる中国語現代語
- Authors: Zeyu Zhao, Ningtao Wang, Xing Fu, Yu Cheng,
- Abstract要約: ハードウェア対応の32k BPE語彙である Chinese ModernBERT を紹介した。
我々は、CCI3-HQ、CCI4(中国語)、Cosmopedia- Chineseから1.2Tの中国トークンを事前訓練する。
CLUEでは、中国のModernBERTは、統一された微調整プロトコルの下で強力な中国のエンコーダと競合している。
- 参考スコア(独自算出の注目度): 15.633276132474316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Encoder-only Transformers have advanced along three axes -- architecture, data, and systems -- yielding Pareto gains in accuracy, speed, and memory efficiency. Yet these improvements have not fully transferred to Chinese, where tokenization and morphology differ markedly from English. We introduce Chinese ModernBERT, a from-scratch Chinese encoder that couples: (i) a hardware-aware 32k BPE vocabulary tailored to frequent Chinese affixes/compounds, lowering the embedding budget; (ii) whole-word masking (WWM) with a dynamic masking curriculum (30% -> 15%) to align task difficulty with training progress; (iii) a two-stage pre-training pipeline that extends the native context from 1,024 to 8,192 tokens using RoPE and alternating local/global attention; and (iv) a damped-cosine learning-rate schedule for stable long-horizon optimization. We pre-train on ~1.2T Chinese tokens from CCI3-HQ, CCI4 (Chinese), and Cosmopedia-Chinese. On CLUE, Chinese ModernBERT is competitive with strong Chinese encoders under a unified fine-tuning protocol. Under bf16 it achieves high long-sequence throughput while maintaining strong short-sequence speed, reflecting benefits from budget allocation and attention design. To probe retrieval-oriented quality, we add a small amount of open contrastive data: fine-tuning on SimCLUE (~3M pairs) improves further when adding T2Ranking (~2M), reaching 0.505 (Pearson) / 0.537 (Spearman) on the SimCLUE test set. Under this open-data setting, Chinese ModernBERT surpasses Qwen-0.6B-embedding on SimCLUE, suggesting a clear scaling path for STS with additional curated pairs. We will release tokenizer and weights to facilitate reproducible research.
- Abstract(参考訳): エンコーダのみのトランスフォーマーは、アーキテクチャ、データ、システムという3つの軸に沿って進歩し、Paretoの精度、速度、メモリ効率が向上した。
しかし、これらの改良は、トークン化と形態が英語と大きく異なる中国語に完全に移行していない。
夫婦を組む中国語エンコーダ「China ModernBERT」を紹介します。
i) ハードウェア対応の32k BPE語彙で,頻繁な中国の接頭辞/複合語に適合し,組込み予算を下げる。
(II)動的マスキングカリキュラム(30%~15%)を用いた全語マスキング(WWM)
三)RoPEを用いてネイティブコンテキストを1,024から8,192まで拡張し、局所的・言語的注意を交互に行う二段階事前学習パイプライン
(4)安定長軸最適化のための減衰コサイン学習率スケジュール。
我々は、CCI3-HQ、CCI4(中国語)、Cosmopedia- Chineseから約1.2Tの中国語トークンを事前訓練する。
CLUEでは、中国のModernBERTは、統一された微調整プロトコルの下で強力な中国のエンコーダと競合している。
bf16では、予算配分とアテンション設計の利点を反映して、強い短シーケンス速度を維持しながら、高い長シーケンススループットを実現する。
SimCLUEテストセットにT2Ranking (~2M), 0.505 (Pearson), 0.537 (Spearman) を追加すると,SimCLUE(~3Mペア)の微調整がさらに向上する。
このオープンデータ設定の下で、China ModernBERTはSimCLUE上のQwen-0.6B埋め込みを超え、追加のキュレートされたペアでSTSの明確なスケーリングパスを示唆している。
再現可能な研究を促進するために、トークンライザとウェイトをリリースします。
関連論文リスト
- Efficient Training of Robust Traditional Chinese LLaMA-1B on a Single Consumer GPU: Continual Pre-training, SFT, and DPO [0.0]
小型言語モデル(SLM)は、コスト効率、オンデバイス、レイテンシに敏感なAIアプリケーションを実現する。
しかし、従来の中国(TC)への展開は、トークンレベルの不安定さによって妨げられている。
Llama-3.2-1B-Instructの3段階安定化パイプラインであるPureTC-1Bを作成した。
論文 参考訳(メタデータ) (2025-10-02T02:50:12Z) - COIG-P: A High-Quality and Large-Scale Chinese Preference Dataset for Alignment with Human Values [43.09443095372083]
高品質で大規模な中国の嗜好データセットであるCOIG-Pを紹介する。
これは、Chat、Code、Math、Logic、Nove、Roleの6つの異なるドメインにまたがる1009万の中国の好みペアで構成されている。
スコアリングにLLMを使用する場合のオーバーヘッドを軽減するため,COIG-Pを用いて8Bサイズの中国語リワードモデルを訓練した。
論文 参考訳(メタデータ) (2025-04-07T22:15:51Z) - COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning [37.843051974342124]
実世界の様々な資源から派生した,厳密な人的検証を行う新しい中国語指導調律データセットであるCOIG-CQIAを紹介する。
我々はCOIG-CQIAに関する広範な実験を行い、それらを強力なベースラインモデルやデータセットと比較する。
実験の結果,COIG-CQIAでトレーニングしたモデルは,様々なベンチマークで高い競争性能を達成できた。
論文 参考訳(メタデータ) (2024-03-26T19:24:18Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - Efficient Cross-Lingual Transfer for Chinese Stable Diffusion with
Images as Pivots [80.32906566894171]
英語の安定拡散を中国語に伝達する簡易かつ効果的な方法であるIAPを提案する。
IAPは、CLIPの埋め込み空間における中国語、英語、視覚的意味論の接続を効率的に確立する。
実験結果から,本手法は,5%のトレーニングデータしか持たない強い中国拡散モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-19T09:20:27Z) - Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese [55.95225353842118]
我々は中国語で画像とテキストのペアの大規模なデータセットを構築し、ほとんどのデータは公開データセットから取得する。
77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発している。
実験の結果,中国のCLIPはMUGE,Flickr30K-CN,COCO-CNの最先端性能を達成できた。
論文 参考訳(メタデータ) (2022-11-02T17:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。