論文の概要: Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model
- arxiv url: http://arxiv.org/abs/2311.17487v1
- Date: Wed, 29 Nov 2023 09:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:52:58.800217
- Title: Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model
- Title(参考訳): 台湾llm:文化的に連携した言語モデルによる言語分割の橋渡し
- Authors: Yen-Ting Lin, Yun-Nung Chen
- Abstract要約: 本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
- 参考スコア(独自算出の注目度): 31.68119156599923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of language models, the nuanced linguistic and cultural
intricacies of Traditional Chinese, as spoken in Taiwan, have been largely
overlooked. This paper introduces Taiwan LLM, a pioneering Large Language Model
that specifically caters to the Traditional Chinese language, with a focus on
the variant used in Taiwan. Leveraging a comprehensive pretraining corpus and
instruction-finetuning datasets, we have developed a model that not only
understands the complexities of Traditional Chinese but also embodies the
cultural context of Taiwan. Taiwan LLM represents the first of its kind, a
model that is not only linguistically accurate but also culturally resonant
with its user base. Our evaluations demonstrate that Taiwan LLM achieves
superior performance in understanding and generating Traditional Chinese text,
outperforming existing models that are predominantly trained on Simplified
Chinese or English. The open-source release of Taiwan LLM invites collaboration
and further innovation, ensuring that the linguistic diversity of Chinese
speakers is embraced and well-served. The model, datasets, and further
resources are made publicly available to foster ongoing research and
development in this field.
- Abstract(参考訳): 言語モデルの世界では、台湾で話される伝統的な中国語のニュアンスド言語と文化の複雑さがほとんど見過ごされてきている。
本稿では,台湾で使われている変種に着目した,中国語に特化する先駆的な大規模言語モデルである台湾LLMを紹介する。
包括的事前学習コーパスと指導ファインタニングデータセットを活用し,従来の中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
台湾のLLMは、言語的に正確であるだけでなく、そのユーザーベースと文化的に共鳴するモデルである。
台湾のLLMは漢文の理解・生成において優れた性能を示し,簡素な中国語や英語で学習した既存モデルよりも優れていた。
台湾のLLMのオープンソースリリースは、協力とさらなるイノベーションを招き、中国語話者の言語的多様性が受け入れられ、十分に維持されていることを保証する。
この分野で進行中の研究と開発を促進するために、モデル、データセット、さらに多くのリソースが公開されている。
関連論文リスト
- How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs [2.9123921488295768]
18言語で中国語企業によって事前訓練された6つのオープンソース多言語LPMを評価した。
実験の結果,中国における多言語でのLLMのパフォーマンスは国際LLMと区別できないことがわかった。
われわれは、中国のLLM開発において、言語多様性のいずれに対しても、一貫した政策の兆候は見つからない。
論文 参考訳(メタデータ) (2024-07-12T19:21:40Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。
Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文 参考訳(メタデータ) (2024-06-17T01:54:27Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems [4.150560582918129]
台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化したLLaMA 2-7Bモデルを事前訓練した。
限定的な単言語コーパスの使用により,台湾語のHokkien能力がさらに向上することが判明した。
論文 参考訳(メタデータ) (2024-03-18T17:56:13Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus [12.780273009783102]
台湾のホッキエンは、台湾のマンダリンへの言語シフトにより、使用と地位が低下している。
音声処理における技術の現状が台湾のホッキエンを置き去りにしないよう、我々は台湾のホッキエンの1.5時間データセットをML-SUPERBの隠れ集合に寄贈する。
論文 参考訳(メタデータ) (2023-12-06T01:32:20Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。