Fugu-MT 論文翻訳(概要): Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model

論文の概要: Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model

arxiv url: http://arxiv.org/abs/2311.17487v1
Date: Wed, 29 Nov 2023 09:48:34 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 21:52:58.800217
Title: Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned Language Model
Title（参考訳）: 台湾llm:文化的に連携した言語モデルによる言語分割の橋渡し
Authors: Yen-Ting Lin, Yun-Nung Chen
Abstract要約: 本稿では,台湾のLLM(Large Language Model)について紹介する。我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
参考スコア（独自算出の注目度）: 31.68119156599923
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the realm of language models, the nuanced linguistic and cultural intricacies of Traditional Chinese, as spoken in Taiwan, have been largely overlooked. This paper introduces Taiwan LLM, a pioneering Large Language Model that specifically caters to the Traditional Chinese language, with a focus on the variant used in Taiwan. Leveraging a comprehensive pretraining corpus and instruction-finetuning datasets, we have developed a model that not only understands the complexities of Traditional Chinese but also embodies the cultural context of Taiwan. Taiwan LLM represents the first of its kind, a model that is not only linguistically accurate but also culturally resonant with its user base. Our evaluations demonstrate that Taiwan LLM achieves superior performance in understanding and generating Traditional Chinese text, outperforming existing models that are predominantly trained on Simplified Chinese or English. The open-source release of Taiwan LLM invites collaboration and further innovation, ensuring that the linguistic diversity of Chinese speakers is embraced and well-served. The model, datasets, and further resources are made publicly available to foster ongoing research and development in this field.
Abstract（参考訳）: 言語モデルの世界では、台湾で話される伝統的な中国語のニュアンスド言語と文化の複雑さがほとんど見過ごされてきている。本稿では,台湾で使われている変種に着目した,中国語に特化する先駆的な大規模言語モデルである台湾LLMを紹介する。包括的事前学習コーパスと指導ファインタニングデータセットを活用し,従来の中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。台湾のLLMは、言語的に正確であるだけでなく、そのユーザーベースと文化的に共鳴するモデルである。台湾のLLMは漢文の理解・生成において優れた性能を示し,簡素な中国語や英語で学習した既存モデルよりも優れていた。台湾のLLMのオープンソースリリースは、協力とさらなるイノベーションを招き、中国語話者の言語的多様性が受け入れられ、十分に維持されていることを保証する。この分野で進行中の研究と開発を促進するために、モデル、データセット、さらに多くのリソースが公開されている。

関連論文リスト

Characterizing Bias: Benchmarking Large Language Models in Simplified versus Traditional Chinese [52.98034458924209]
本研究では,大言語モデルが中国語の2つの変種に刺激された場合の差分性能について検討する。実世界のシナリオを反映した2つのベンチマークタスクを設計する。分析の結果、LLM応答のバイアスはタスクとプロンプト言語の両方に依存していることがわかった。
論文参考訳（メタデータ） (2025-05-28T17:56:49Z)
All Languages Matter: Evaluating LMMs on Culturally Diverse 100 Languages [73.93600813999306]
ALM-benchは、100言語にわたるLMMを評価するための、これまでで最大かつ最も包括的な取り組みである。様々な言語でテキストと組み合わせた文化的に多様なイメージを理解し、推論する能力をテストすることで、既存のモデルに挑戦する。このベンチマークは、真/偽、複数選択、オープンな質問など、さまざまな質問フォーマットを備えた、堅牢でニュアンスの高い評価フレームワークを提供する。
論文参考訳（メタデータ） (2024-11-25T15:44:42Z)
How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs [2.9123921488295768]
18言語で中国語企業によって事前訓練された6つのオープンソース多言語LPMを評価した。実験の結果,中国における多言語でのLLMのパフォーマンスは国際LLMと区別できないことがわかった。われわれは、中国のLLM開発において、言語多様性のいずれに対しても、一貫した政策の兆候は見つからない。
論文参考訳（メタデータ） (2024-07-12T19:21:40Z)
MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文参考訳（メタデータ） (2024-06-25T11:03:45Z)
Breaking Boundaries: Investigating the Effects of Model Editing on Cross-linguistic Performance [6.907734681124986]
本稿では,多言語文脈における知識編集技術を検討することにより,言語的平等の必要性を戦略的に識別する。 Mistral, TowerInstruct, OpenHathi, Tamil-Llama, Kan-Llamaなどのモデルの性能を,英語,ドイツ語,フランス語,イタリア語,スペイン語,ヒンディー語,タミル語,カンナダ語を含む言語で評価した。
論文参考訳（メタデータ） (2024-06-17T01:54:27Z)
Measuring Taiwanese Mandarin Language Understanding [24.581360653015423]
大規模言語モデル(LLM)における高度な知識と推論能力を評価するための総合評価スーツであるTMLUを提案する。 TMLUは、社会科学、STEM、人文科学、台湾固有のコンテンツなど、中学から専門レベルまで、37の被験者からなる。
論文参考訳（メタデータ） (2024-03-29T13:56:21Z)
Enhancing Taiwanese Hokkien Dual Translation by Exploring and Standardizing of Four Writing Systems [4.150560582918129]
台湾のホッキエン漢と伝統的なマンダリン中国語の正書法的類似性を活用するために,従来のマンダリン中国語に特化したLLaMA 2-7Bモデルを事前訓練した。限定的な単言語コーパスの使用により,台湾語のHokkien能力がさらに向上することが判明した。
論文参考訳（メタデータ） (2024-03-18T17:56:13Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
Evaluating Self-supervised Speech Models on a Taiwanese Hokkien Corpus [12.780273009783102]
台湾のホッキエンは、台湾のマンダリンへの言語シフトにより、使用と地位が低下している。音声処理における技術の現状が台湾のホッキエンを置き去りにしないよう、我々は台湾のホッキエンの1.5時間データセットをML-SUPERBの隠れ集合に寄贈する。
論文参考訳（メタデータ） (2023-12-06T01:32:20Z)
Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。 Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文参考訳（メタデータ） (2023-05-25T15:30:31Z)
LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文参考訳（メタデータ） (2022-11-10T05:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。