論文の概要: Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training
- arxiv url: http://arxiv.org/abs/2507.09205v4
- Date: Mon, 28 Jul 2025 04:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:46.948938
- Title: Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training
- Title(参考訳): キュレートされたデータと継続的な事前学習によるチベット語大言語モデルの改善
- Authors: Leiyu Pan, Bojian Xiong, Lei Yang, Renren Jin, Shaowei Zhang, Yue Chen, Ling Shi, Jiang Zhou, Junru Wu, Zhen Wang, Jianxiang Peng, Juesi Xiao, Tianyu Dong, Zhuowen Han, Zhuo Chen, Yuqi Ren, Deyi Xiong,
- Abstract要約: 我々はこれまでで最大のチベット事前訓練コーパスを作成し、様々な情報源からデータを収集した。
キュレートされたデータを用いて,チベット語における生成能力を高めるために,多言語ベースモデルの事前/ポストトレーニングを継続する。
我々は、新しい高品質のチベットベンチマークを作成し、それらを既存の公開ベンチマークで補完する。
- 参考スコア(独自算出の注目度): 43.57169338795754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved remarkable progress across many languages. However, Tibetan, as a representative low-resource language, is particularly underrepresented in existing models due to the scarcity of high-quality training corpora. To address this gap, we curate the largest Tibetan pre-training corpus to date, aggregating data from diverse sources and applying a dedicated data cleaning and processing pipeline tailored for Tibetan. With the curated data, we continue pre/post-training a multilingual base model to enhance its generative capabilities in Tibetan. To evaluate the Tibetan capabilities of the model, we create new high-quality Tibetan benchmarks, and complement them with existing public benchmarks. Experimental results demonstrate that our model consistently and significantly outperforms both open-source models of similar scale and Tibetan-tailored models across a wide range of tasks.
- Abstract(参考訳): 大規模な言語モデルは、多くの言語で顕著な進歩を遂げた。
しかし、チベット語は特に低資源言語として、高品質の訓練コーパスが不足しているため、既存のモデルではあまり表現されていない。
このギャップに対処するため、これまでで最大規模のチベット事前訓練コーパスをキュレートし、さまざまなソースからデータを集約し、チベット語用に調整された専用データクリーニングおよび処理パイプラインを適用した。
キュレートされたデータを用いて,チベット語における生成能力を高めるために,多言語ベースモデルの事前/ポストトレーニングを継続する。
このモデルのチベット語能力を評価するため、我々は新しい高品質なチベット語ベンチマークを作成し、それらを既存の公的なベンチマークで補完する。
実験の結果、我々のモデルは、同様のスケールのオープンソースモデルと、広範囲のタスクにまたがるチベット調整モデルの両方で、一貫して、著しく優れています。
関連論文リスト
- PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan
pre-trained language models [0.0]
チベット語には、その低リソース性のため、現在、大きな言語モデルは存在しない。
TNCC字幕データセットを用いた3種類の効率的な微調整実験を行った。
論文 参考訳(メタデータ) (2023-09-21T14:29:23Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - TiBERT: Tibetan Pre-trained Language Model [2.9554549423413303]
本稿では,チベットのWebサイトから大規模なトレーニングデータを収集し,センテンスピースを用いてコーパス内の単語の99.95$%をカバーできる語彙を構築する。
テキスト分類と質問生成の下流タスクにTiBERTを適用し、古典モデルと多言語事前学習モデルと比較する。
論文 参考訳(メタデータ) (2022-05-15T14:45:08Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。