論文の概要: Do Chinese models speak Chinese languages?
- arxiv url: http://arxiv.org/abs/2504.00289v1
- Date: Mon, 31 Mar 2025 23:19:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:26:06.054226
- Title: Do Chinese models speak Chinese languages?
- Title(参考訳): 中国のモデルは中国語を話しますか。
- Authors: Andrea W Wen-Yi, Unso Eun Seo Jo, David Mimno,
- Abstract要約: 言語能力は、事前トレーニングデータキュレーションに関する洞察を提供する。
中国は、少数言語の傾向とマンダリン第一政策の間で異なる、明示的な言語政策の長い歴史を持っている。
アジア地域および中国のマイノリティ言語を対象とした,中国と西欧のオープンソースLLMの性能を検証した。
- 参考スコア(独自算出の注目度): 3.1815791977708834
- License:
- Abstract: The release of top-performing open-weight LLMs has cemented China's role as a leading force in AI development. Do these models support languages spoken in China? Or do they speak the same languages as Western models? Comparing multilingual capabilities is important for two reasons. First, language ability provides insights into pre-training data curation, and thus into resource allocation and development priorities. Second, China has a long history of explicit language policy, varying between inclusivity of minority languages and a Mandarin-first policy. To test whether Chinese LLMs today reflect an agenda about China's languages, we test performance of Chinese and Western open-source LLMs on Asian regional and Chinese minority languages. Our experiments on Information Parity and reading comprehension show Chinese models' performance across these languages correlates strongly (r=0.93) with Western models', with the sole exception being better Mandarin. Sometimes, Chinese models cannot identify languages spoken by Chinese minorities such as Kazakh and Uyghur, even though they are good at French and German. These results provide a window into current development priorities, suggest options for future development, and indicate guidance for end users.
- Abstract(参考訳): トップパフォーマンスのオープンウェイトLSMのリリースは、AI開発において中国が主導的な役割を担っている。
これらのモデルは中国で話されている言語をサポートしていますか。
あるいは、西洋のモデルと同じ言語を話しますか?
多言語能力の比較は2つの理由から重要である。
第一に、言語能力は、事前トレーニングされたデータキュレーションに関する洞察を与え、リソースの割り当てと開発の優先順位を与えます。
第二に、中国は、少数言語の傾向とマンダリン第一政策の間に異なる、明示的な言語政策の長い歴史を持っている。
現在、中国のLLMが中国の言語に関する議題を反映しているかどうかを検証するため、アジア地域および中国のマイノリティ言語について、中国と西洋のオープンソースLLMのパフォーマンスを検証した。
情報パリティと読解に関する実験は、これらの言語における中国語モデルの性能と西洋モデルとの相関が強く(r=0.93)、唯一の例外はマンダリンである。
時折、中国語モデルはフランス語やドイツ語が得意であるにもかかわらず、カザフ語やウイグル語のような中国人マイノリティによって話される言語を識別することはできない。
これらの結果は、現在の開発優先事項の窓口を提供し、将来の開発のための選択肢を提案し、エンドユーザーへのガイダンスを示します。
関連論文リスト
- Chinese SimpleQA: A Chinese Factuality Evaluation for Large Language Models [24.47838086336772]
中国語SimpleQAは、短い質問に答える言語モデルの事実性を評価する最初の包括的な中国のベンチマークである。
私たちは、99の多様なサブトピックを持つ6つの主要なトピックに関する中国語に焦点を当てています。
論文 参考訳(メタデータ) (2024-11-11T17:10:56Z) - SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages [77.75535024869224]
東南アジアの言語に合わせたSeaLLMsモデルファミリーの最新版SeaLLMs 3を紹介します。
SeaLLMs 3は、英語、中国語、インドネシア語、ベトナム語、タイ語、タガログ語、マレー語、ビルマ語、クメール語、ラオス語、タミル語、ジャワ語など、この地域で話される言語全般をカバーすることで、このギャップを埋めることを目指している。
我々のモデルは、世界的知識、数学的推論、翻訳、命令の追従といったタスクに優れており、同様の大きさのモデルで最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-07-29T03:26:22Z) - How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs [2.9123921488295768]
18言語で中国語企業によって事前訓練された6つのオープンソース多言語LPMを評価した。
実験の結果,中国における多言語でのLLMのパフォーマンスは国際LLMと区別できないことがわかった。
われわれは、中国のLLM開発において、言語多様性のいずれに対しても、一貫した政策の兆候は見つからない。
論文 参考訳(メタデータ) (2024-07-12T19:21:40Z) - CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - YAYI 2: Multilingual Open-Source Large Language Models [53.92832054643197]
我々は,300億のパラメータを持つベースモデルとチャットモデルを含むYAYI 2を提案する。
YAYI 2は、トレーニング済みのデータ処理パイプラインによってフィルタされた2.65兆のトークンを含む多言語コーパス上で、スクラッチから事前トレーニングされる。
ベースモデルは、数百万の指示による教師付き微調整と、人間のフィードバックからの強化学習によって、人間の価値と整合する。
論文 参考訳(メタデータ) (2023-12-22T17:34:47Z) - On the (In)Effectiveness of Large Language Models for Chinese Text
Correction [44.32102000125604]
大規模言語モデル(LLM)は、人工知能コミュニティ全体を驚かせた。
本研究は,中国語のNLP課題である中国語のテキスト訂正に焦点を当てた。
LLMは、現在、中国語のテキスト訂正において、素晴らしいパフォーマンスと不満足な動作の両方を持っていることを実証的に見出した。
論文 参考訳(メタデータ) (2023-07-18T06:48:52Z) - CINO: A Chinese Minority Pre-trained Language Model [30.447739293695026]
中国語マイノリティ事前学習言語モデル(CINO)を提案する。
標準中国語、カントン諸語、その他の6つの少数言語をカバーしている。
論文 参考訳(メタデータ) (2022-02-28T06:02:06Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Investigating Transfer Learning in Multilingual Pre-trained Language
Models through Chinese Natural Language Inference [11.096793445651313]
中国語と英語の自然言語推論(NLI)におけるXLM-Rの言語間移動能力について検討する。
言語移動をより深く理解するために、中国語の課題と敵対課題の4つのカテゴリを作成しました。
英語のNLIで訓練された言語間のモデルが、中国語のタスク間でうまく伝達されていることが分かりました。
論文 参考訳(メタデータ) (2021-06-07T22:00:18Z) - CPM: A Large-scale Generative Chinese Pre-trained Language Model [76.65305358932393]
我々は,大規模な中国語学習データに基づく生成事前学習を備えた中国語事前学習言語モデル(CPM)をリリースする。
CPMは、数ショット(ゼロショットでも)学習の設定において、多くのNLPタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-12-01T11:32:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。