論文の概要: Banzhida: Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training
- arxiv url: http://arxiv.org/abs/2507.09205v2
- Date: Tue, 22 Jul 2025 14:15:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 17:22:28.576129
- Title: Banzhida: Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training
- Title(参考訳): Banzhida: チベットの大規模言語モデルにキュレートされたデータと継続的な事前学習を導入
- Authors: Leiyu Pan, Bojian Xiong, Lei Yang, Renren Jin, Shaowei Zhang, Yue Chen, Ling Shi, Jiang Zhou, Junru Wu, Zhen Wang, Jianxiang Peng, Juesi Xiao, Tianyu Dong, Zhuowen Han, Zhuo Chen, Sangjee Dondrub, Caizang Tai, Haixing Zhao, Huaque Cairang, Suonan Cairang, Rou Te, Lengben Zhaxi, Gazang Zhaxi, Zhonglin Ye, Yuhui Zheng, Chunyan Peng, Secha Jia, Pema Tashi, Cizhen Jiacuo, Pema Dorjee, Hongkai Liu, Pema Yanggon, Tsehang Dorjee, Jiaxin Han, Qiongying Hu, Jilin Man, Huanke You, Yuqi Ren, Duo La, Deyi Xiong,
- Abstract要約: バンジーダ(Banzhida)は、チベット語で生成するAIを進化させる多言語大言語モデルである。
現在までに最大のチベット事前訓練コーパスをキュレートし、様々な情報源からのデータを収集している。
我々は、新しい高品質のチベットベンチマークを作成し、それらを既存の公開ベンチマークで補完する。
- 参考スコア(独自算出の注目度): 40.90729408767424
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have achieved remarkable progress across many languages. However, Tibetan, as a representative low-resource language, is particularly underrepresented in existing models due to the scarcity of high-quality training corpora. To address this gap, we curate the largest Tibetan pre-training corpus to date, aggregating data from diverse sources and applying a dedicated data cleaning and processing pipeline tailored for Tibetan. With the curated data, we continue pre/post-training a multilingual base model into Banzhida, a multilingual large language model that advances generative AI for Tibetan. To evaluate the Tibetan capabilities of the model, we create new high-quality Tibetan benchmarks, and complement them with existing public benchmarks. Experimental results demonstrate that Banzhida consistently and significantly outperforms both open-source models of similar scale and Tibetan-tailored models across a wide range of tasks.
- Abstract(参考訳): 大規模な言語モデルは、多くの言語で顕著な進歩を遂げた。
しかし、チベット語は特に低資源言語として、高品質の訓練コーパスが不足しているため、既存のモデルではあまり表現されていない。
このギャップに対処するため、これまでで最大規模のチベット事前訓練コーパスをキュレートし、さまざまなソースからデータを集約し、チベット語用に調整された専用データクリーニングおよび処理パイプラインを適用した。
キュレートされたデータを用いて、チベット語のための生成AIを推進する多言語大規模言語モデルであるBanzhidaへの多言語ベースモデルの事前/ポストトレーニングを継続する。
このモデルのチベット語能力を評価するため、我々は新しい高品質なチベット語ベンチマークを作成し、それらを既存の公的なベンチマークで補完する。
実験結果から、Banzhidaは、同様のスケールのオープンソースモデルと、広範囲のタスクにまたがるチベット調整モデルの両方で、一貫して、はるかに優れています。
関連論文リスト
- TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling [10.77750944881769]
我々は,大規模言語モデル(LLM)の開発と評価を支援するために設計された,最初の大規模,専門家による,マルチドメインデータセットであるTIB-STCを提案する。
TIB-STCは、文学、宗教、医学、法律、日々のコミュニケーションにまたがる100億以上のトークンを拡大し、伝統的な文法と様式的な豊かさを保っている。
Ti-MMLUやTi-SafetyBenchを含むチベット固有のタスクに対するTLUEベンチマークの評価は、TIB-STCが堅牢な指示追従と文化的に整合した生成を可能にしたことを示す。
論文 参考訳(メタデータ) (2025-03-24T02:17:41Z) - PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan
pre-trained language models [0.0]
チベット語には、その低リソース性のため、現在、大きな言語モデルは存在しない。
TNCC字幕データセットを用いた3種類の効率的な微調整実験を行った。
論文 参考訳(メタデータ) (2023-09-21T14:29:23Z) - WanJuan: A Comprehensive Multimodal Dataset for Advancing English and
Chinese Large Models [69.96148259273065]
ワンフアン(Wan Juan)は、中国語と英語のデータからなる大規模なマルチモーダルデータセットであり、幅広いWebソースから収集されている。
同様のスケールのモデルと比較して,多次元評価において有意な優位性を示すモデルであるInternLMのトレーニングに利用された。
論文 参考訳(メタデータ) (2023-08-21T14:40:48Z) - Fine-grained Text Style Transfer with Diffusion-Based Language Models [50.02698074338317]
微細テキストスタイル転送の標準ベンチマークであるStylePTBデータセットを用いて拡散モデルを構築した。
本モデルでは, 個人と作曲の両方において, 最先端の性能を達成できた。
論文 参考訳(メタデータ) (2023-05-31T02:51:26Z) - Pre-training Data Quality and Quantity for a Low-Resource Language: New
Corpus and BERT Models for Maltese [4.4681678689625715]
低リソース言語に対するモノリンガルデータによる事前学習の効果を分析する。
新たに作成したマルタ語コーパスを提示し、事前学習データサイズとドメインが下流のパフォーマンスに与える影響を判定する。
スクラッチからトレーニングされた単言語BERTモデル(BERTu)と、さらに事前訓練された多言語BERT(mBERTu)の2つのモデルを比較する。
論文 参考訳(メタデータ) (2022-05-21T06:44:59Z) - TiBERT: Tibetan Pre-trained Language Model [2.9554549423413303]
本稿では,チベットのWebサイトから大規模なトレーニングデータを収集し,センテンスピースを用いてコーパス内の単語の99.95$%をカバーできる語彙を構築する。
テキスト分類と質問生成の下流タスクにTiBERTを適用し、古典モデルと多言語事前学習モデルと比較する。
論文 参考訳(メタデータ) (2022-05-15T14:45:08Z) - Can Character-based Language Models Improve Downstream Task Performance in Low-Resource and Noisy Language Scenarios? [15.995677143912474]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Harnessing Multilinguality in Unsupervised Machine Translation for Rare
Languages [48.28540903568198]
マルチリンガル性は低リソース環境において教師なしシステムの実現に不可欠であることを示す。
我々は,5つの低リソース言語(グジャラート語,カザフ語,ネパール語,シンハラ語,トルコ語)について,英語方向と英語方向の単一モデルを提案する。
我々は、これらの言語の現在最先端の教師なしベースラインを全て上回り、最大14.4BLEUのゲインを得る。
論文 参考訳(メタデータ) (2020-09-23T15:07:33Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。