論文の概要: Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model
- arxiv url: http://arxiv.org/abs/2311.17487v1
- Date: Wed, 29 Nov 2023 09:48:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 21:52:58.800217
- Title: Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model
- Title(参考訳): 台湾llm:文化的に連携した言語モデルによる言語分割の橋渡し
- Authors: Yen-Ting Lin, Yun-Nung Chen
- Abstract要約: 本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
- 参考スコア(独自算出の注目度): 31.68119156599923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the realm of language models, the nuanced linguistic and cultural
intricacies of Traditional Chinese, as spoken in Taiwan, have been largely
overlooked. This paper introduces Taiwan LLM, a pioneering Large Language Model
that specifically caters to the Traditional Chinese language, with a focus on
the variant used in Taiwan. Leveraging a comprehensive pretraining corpus and
instruction-finetuning datasets, we have developed a model that not only
understands the complexities of Traditional Chinese but also embodies the
cultural context of Taiwan. Taiwan LLM represents the first of its kind, a
model that is not only linguistically accurate but also culturally resonant
with its user base. Our evaluations demonstrate that Taiwan LLM achieves
superior performance in understanding and generating Traditional Chinese text,
outperforming existing models that are predominantly trained on Simplified
Chinese or English. The open-source release of Taiwan LLM invites collaboration
and further innovation, ensuring that the linguistic diversity of Chinese
speakers is embraced and well-served. The model, datasets, and further
resources are made publicly available to foster ongoing research and
development in this field.
- Abstract(参考訳): 言語モデルの世界では、台湾で話される伝統的な中国語のニュアンスド言語と文化の複雑さがほとんど見過ごされてきている。
本稿では,台湾で使われている変種に着目した,中国語に特化する先駆的な大規模言語モデルである台湾LLMを紹介する。
包括的事前学習コーパスと指導ファインタニングデータセットを活用し,従来の中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
台湾のLLMは、言語的に正確であるだけでなく、そのユーザーベースと文化的に共鳴するモデルである。
台湾のLLMは漢文の理解・生成において優れた性能を示し,簡素な中国語や英語で学習した既存モデルよりも優れていた。
台湾のLLMのオープンソースリリースは、協力とさらなるイノベーションを招き、中国語話者の言語的多様性が受け入れられ、十分に維持されていることを保証する。
この分野で進行中の研究と開発を促進するために、モデル、データセット、さらに多くのリソースが公開されている。
関連論文リスト
- Chinese Tiny LLM: Pretraining a Chinese-Centric Large Language Model [49.58285399644457]
2B大言語モデル(LLM)であるCT-LLMを導入する。
CT-LLMは、スクラッチから一意に開始され、中国語のテキストデータを組み込んで従来の手法から分岐する。
CT-LLMは中国語のタスクに優れており、SFTを通して英語で適応性を示す。
論文 参考訳(メタデータ) (2024-04-05T15:20:02Z) - Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。
TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文 参考訳(メタデータ) (2024-03-29T13:56:21Z) - Vi-Mistral-X: Building a Vietnamese Language Model with Advanced Continual Pre-training [0.0]
vi-mistral-xはベトナム語用に特別に設計された革新的な大規模言語モデルである。
これはMistralアーキテクチャに基づいた、継続事前トレーニングのユニークな方法を利用している。
既存のベトナムのLLMを、テキスト分類、質問応答、テキスト生成など、いくつかの重要な領域で上回っていることが示されている。
論文 参考訳(メタデータ) (2024-03-20T10:14:13Z) - Enhancing Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems [4.150560582918129]
台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化して訓練済みのLLaMA2-7Bモデルを用いる。
そして、翻訳モデルを用いて、台湾のすべての法キエン文字体系を北キエン漢に標準化し、さらなる性能向上を実現した。
論文 参考訳(メタデータ) (2024-03-18T17:56:13Z) - Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus [12.780273009783102]
台湾のホッキエンは、台湾のマンダリンへの言語シフトにより、使用と地位が低下している。
音声処理における技術の現状が台湾のホッキエンを置き去りにしないよう、我々は台湾のホッキエンの1.5時間データセットをML-SUPERBの隠れ集合に寄贈する。
論文 参考訳(メタデータ) (2023-12-06T01:32:20Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。