論文の概要: TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling
- arxiv url: http://arxiv.org/abs/2503.18288v4
- Date: Sun, 27 Jul 2025 05:18:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:45.942042
- Title: TIB-STC: A Large-Scale Structured Tibetan Benchmark for Low-Resource Language Modeling
- Title(参考訳): TIB-STC:低リソース言語モデリングのための大規模構造化チベット語ベンチマーク
- Authors: Cheng Huang, Fan Gao, Yutong Liu, Nyima Tashi, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Hao Wang, Yongbin Yu,
- Abstract要約: 我々は,大規模言語モデル(LLM)の開発と評価を支援するために設計された,最初の大規模,専門家による,マルチドメインベンチマークであるTIB-STCを提案する。
我々は、事前訓練、教師付き微調整、優先最適化を含む3段階のパイプラインを通して、TIB-STC上でSun-Shineという参照モデルを訓練する。
Ti-MMLUやTi-SafetyBenchを含むチベット固有のタスクに対するTLUEベンチマークの評価は、堅牢な指示追従と文化的に整合した生成を可能にするためのベンチマークの有効性を示す。
- 参考スコア(独自算出の注目度): 10.77750944881769
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancement of large language models (LLMs) has brought transformative capabilities to NLP, but such progress remains unevenly distributed, especially for low-resource and culturally rich languages like Tibetan. In this paper, we present TIB-STC, the first large-scale, expert-curated, and multi-domain benchmark specifically designed to support the development and evaluation of LLMs for the Tibetan language. Spanning over 11 billion tokens across literature, religion, medicine, law, and daily communication, TIB-STC preserves traditional grammar and stylistic richness. To validate its utility, we train a reference model, Sun-Shine, on TIB-STC through a three-stage pipeline involving pretraining, supervised fine-tuning, and preference optimization. Evaluation on TLUE Benchmark for Tibetan-specific tasks, including Ti-MMLU and Ti-SafetyBench, demonstrates the benchmark's effectiveness in enabling robust instruction-following and culturally aligned generation. We release TIB-STC to advance research in low-resource language modeling and promote inclusivity in multilingual NLP. All data are available at: https://github.com/Vicentvankor/sun-shine
- Abstract(参考訳): 大規模言語モデル(LLMs)の進歩は、NLPに変革をもたらすが、チベット語のような低リソースで文化的に豊かな言語では、そのような進歩はいまだに不均一に分散している。
本稿では,チベット語におけるLSMの開発と評価を支援するために設計された,最初の大規模,専門家による,マルチドメインベンチマークであるTIB-STCを提案する。
TIB-STCは、文学、宗教、医学、法律、日々のコミュニケーションにまたがる100億以上のトークンを拡大し、伝統的な文法と様式的な豊かさを保っている。
その実用性を検証するために、事前学習、教師付き微調整、優先最適化を含む3段階のパイプラインを通して、TIB-STC上でSun-Shineという参照モデルを訓練する。
Ti-MMLUやTi-SafetyBenchを含むチベット固有のタスクに対するTLUEベンチマークの評価は、堅牢な指示追従と文化的に整合した生成を可能にするためのベンチマークの有効性を示す。
我々はTIB-STCをリリースし、低リソース言語モデリングの研究を進め、多言語NLPにおけるインクリシティを促進する。
すべてのデータは、https://github.com/Vicentvankor/sun-shineで入手できる。
関連論文リスト
- TIBSTC-CoT: A Multi-Domain Instruction Dataset for Chain-of-Thought Reasoning in Language Models [10.77750944881769]
TIBSTC-CoTは,大型言語モデル (LLM) を駆使して構築された大規模多ドメインチベット語データセットである。
このデータセットに基づいて,チベットを中心とする一連のLLMのチェーン・オブ・シント機能を備えたSunshine-thinking LLMファミリを開発した。
私たちの仕事は、リソース生成とモデル革新の両方を通じて高品質なチベット語処理を可能にすることで、包括的AIへの大きな一歩を踏み出します。
論文 参考訳(メタデータ) (2025-08-04T01:32:58Z) - Advancing Large Language Models for Tibetan with Curated Data and Continual Pre-Training [43.57169338795754]
我々はこれまでで最大のチベット事前訓練コーパスを作成し、様々な情報源からデータを収集した。
キュレートされたデータを用いて,チベット語における生成能力を高めるために,多言語ベースモデルの事前/ポストトレーニングを継続する。
我々は、新しい高品質のチベットベンチマークを作成し、それらを既存の公開ベンチマークで補完する。
論文 参考訳(メタデータ) (2025-07-12T08:54:05Z) - All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Unification of Balti and trans-border sister dialects in the essence of LLMs and AI Technology [19.282867207168565]
バルティ語はシナ・チベット語、特にチベット・ビルマン語族に属する。
インド、中国、パキスタン、ネパール、チベット、ビルマ、ブータンの人口は様々である。
文化・社会・政治・宗教・地理的影響の多様さを考えると、方言の統一を前進させることが重要である。
論文 参考訳(メタデータ) (2024-11-20T15:48:21Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model [31.68119156599923]
本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
論文 参考訳(メタデータ) (2023-11-29T09:48:34Z) - MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China [33.08119305158835]
中国におけるマイノリティ言語多言語コーパスであるMC$2を提示する。
MC$2$にはチベット語、ウイグル語、カザフ語、モンゴル語という4つの下位言語が含まれている。
論文 参考訳(メタデータ) (2023-11-14T17:45:50Z) - PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan
pre-trained language models [0.0]
チベット語には、その低リソース性のため、現在、大きな言語モデルは存在しない。
TNCC字幕データセットを用いた3種類の効率的な微調整実験を行った。
論文 参考訳(メタデータ) (2023-09-21T14:29:23Z) - ChatGPT MT: Competitive for High- (but not Low-) Resource Languages [62.178282377729566]
大規模言語モデル(LLM)は、機械翻訳(MT)を含む様々な言語タスクの実行を暗黙的に学習する。
MTコスト分析とともに,204言語を拡張した最初の実験的な証拠を提示する。
分析の結果,ChatGPTの相対的翻訳能力を決定する上で,言語リソースレベルが最も重要な特徴であることが判明した。
論文 参考訳(メタデータ) (2023-09-14T04:36:00Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - TiBERT: Tibetan Pre-trained Language Model [2.9554549423413303]
本稿では,チベットのWebサイトから大規模なトレーニングデータを収集し,センテンスピースを用いてコーパス内の単語の99.95$%をカバーできる語彙を構築する。
テキスト分類と質問生成の下流タスクにTiBERTを適用し、古典モデルと多言語事前学習モデルと比較する。
論文 参考訳(メタデータ) (2022-05-15T14:45:08Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - N-LTP: An Open-source Neural Language Technology Platform for Chinese [68.58732970171747]
textttN-は、中国の6つの基本的なNLPタスクをサポートする、オープンソースのニューラルネットワークテクノロジプラットフォームである。
textttN-は、中国のタスク間で共有知識をキャプチャする利点がある共有事前学習モデルを使用することで、マルチタスクフレームワークを採用する。
論文 参考訳(メタデータ) (2020-09-24T11:45:39Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。