論文の概要: Sun-Shine: A Large Language Model for Tibetan Culture
- arxiv url: http://arxiv.org/abs/2503.18288v1
- Date: Mon, 24 Mar 2025 02:17:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:19.514355
- Title: Sun-Shine: A Large Language Model for Tibetan Culture
- Title(参考訳): Sun-Shine:チベット文化のための大規模言語モデル
- Authors: Cheng Huang, Fan Gao, Nyima Tashi, Yutong Liu, Xiangxiang Wang, Thupten Tsering, Ban Ma-bao, Renzeg Duojie, Gadeng Luosang, Rinchen Dongrub, Dorje Tashi, Xiao Feng, Yongbin Yu,
- Abstract要約: チベット文化の最初の大規模言語モデルであるLlama-Sunshine(Sun-Shine)を紹介する。
Sun-Shineはチベット語の言語的特徴のために最先端のモデル最適化アーキテクチャを取り入れている。
また,チベット語テキストを多用した総合データセットであるTIB-STCを提案する。
- 参考スコア(独自算出の注目度): 8.303987580599266
- License:
- Abstract: Tibetan, a minority language in China, features a highly intricate grammatical structure, characterized by four verb tenses and a tense system with frequent irregularities, contributing to its extensive inflectional diversity. Recently, advances in Large Language Models (LLMs) have transformed the paradigm in many domains. Despite the success in other fields, current LLMs often fall short in catering to the needs of domain experts like Tibetans, and the potential of LLMs for Tibetan culture is under-explored. The intrinsic reasons are the immense and intricate nature of Tibetan culture as well as the necessity for higher granularity and richness in knowledge. Simultaneously, the complexity and uniqueness of its grammatical structure, coupled with its status as a minority ethnic language, contribute to data scarcity, which remains a fundamental challenge. To alleviate these issues, we introduce Llama-Sunshine (Sun-Shine), the first large language model for Tibetan culture, which is expert in various Tibetan language processing tasks. Sun-Shine incorporates state-of-the-art model architectures optimized for Tibetan's linguistic features. We also propose TIB-STC, a comprehensive dataset comprising diverse Tibetan texts such as literature, religious scripts, news, and conversational data, which is also the first large-scale dataset for Tibetan culture. Though comprehensive experiments, Sun-Shine not only demonstrates a higher level of knowledge expertise for Tibetan culture but also gains preliminary embodied intelligence capabilities in Tibetan language processing tasks, like language modeling, text classification, machine translation, and syntactic analysis. Moreover, it excels in low-resource scenarios, showcasing strong generalization capabilities.
- Abstract(参考訳): 中国の少数言語であるチベット語は、4つの動詞の時制と頻繁な不規則な時制を特徴とし、非常に複雑な文法構造を特徴としている。
近年,Large Language Models (LLM) の進歩により,多くの領域でパラダイムが変化している。
他の分野での成功にもかかわらず、現在の LLM はチベット人のようなドメインの専門家のニーズに応えられず、チベット文化のための LLM の可能性は過小評価されている。
固有の理由は、チベット文化の巨大で複雑な性質と、高い粒度と知識の豊かさの必要性である。
同時に、その文法構造の複雑さと特異性は、少数民族言語としての地位と相まって、データの不足に寄与するが、これは依然として根本的な課題である。
これらの問題を緩和するために,チベット文化における最初の大規模言語モデルであるLlama-Sunshine(Sun-Shine)を紹介する。
Sun-Shineにはチベット語の言語的特徴に最適化された最先端のモデルアーキテクチャが組み込まれている。
また,チベット文化における最初の大規模データセットである,文学,宗教書,ニュース,会話データなどの多様なチベット語のテキストからなる包括的データセットであるTIB-STCを提案する。
包括的な実験ではあるが、Sun-Shineはチベット文化の高度な知識知識を実証するだけでなく、言語モデリング、テキスト分類、機械翻訳、構文解析といったチベット語処理タスクにおいて、予備的なインテリジェンス能力を得る。
さらに、低リソースのシナリオに優れ、強力な一般化能力を示している。
関連論文リスト
- All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。
様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。
このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-25T15:44:42Z) - LIMBA: An Open-Source Framework for the Preservation and Valorization of Low-Resource Languages using Generative Models [62.47865866398233]
この白書は低リソース言語のための言語ツールを生成するためのフレームワークを提案する。
このような言語に対するインテリジェントな応用を妨げるデータ不足に対処することにより、言語多様性の促進に寄与する。
論文 参考訳(メタデータ) (2024-11-20T16:59:41Z) - Unification of Balti and trans-border sister dialects in the essence of LLMs and AI Technology [19.282867207168565]
バルティ語はシナ・チベット語、特にチベット・ビルマン語族に属する。
インド、中国、パキスタン、ネパール、チベット、ビルマ、ブータンの人口は様々である。
文化・社会・政治・宗教・地理的影響の多様さを考えると、方言の統一を前進させることが重要である。
論文 参考訳(メタデータ) (2024-11-20T15:48:21Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model [31.68119156599923]
本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
論文 参考訳(メタデータ) (2023-11-29T09:48:34Z) - MC$^2$: Towards Transparent and Culturally-Aware NLP for Minority Languages in China [33.08119305158835]
中国におけるマイノリティ言語多言語コーパスであるMC$2を提示する。
MC$2$にはチベット語、ウイグル語、カザフ語、モンゴル語という4つの下位言語が含まれている。
論文 参考訳(メタデータ) (2023-11-14T17:45:50Z) - PEFTT: Parameter-Efficient Fine-Tuning for low-resource Tibetan
pre-trained language models [0.0]
チベット語には、その低リソース性のため、現在、大きな言語モデルは存在しない。
TNCC字幕データセットを用いた3種類の効率的な微調整実験を行った。
論文 参考訳(メタデータ) (2023-09-21T14:29:23Z) - Neural Machine Translation for the Indigenous Languages of the Americas:
An Introduction [102.13536517783837]
アメリカ大陸のほとんどの言語は、もしあるならば、並列データと単言語データしか持たない。
これらの言語におけるNLPコミュニティの関心が高まった結果、最近の進歩、発見、オープンな質問について論じる。
論文 参考訳(メタデータ) (2023-06-11T23:27:47Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - TiBERT: Tibetan Pre-trained Language Model [2.9554549423413303]
本稿では,チベットのWebサイトから大規模なトレーニングデータを収集し,センテンスピースを用いてコーパス内の単語の99.95$%をカバーできる語彙を構築する。
テキスト分類と質問生成の下流タスクにTiBERTを適用し、古典モデルと多言語事前学習モデルと比較する。
論文 参考訳(メタデータ) (2022-05-15T14:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。