論文の概要: How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs
- arxiv url: http://arxiv.org/abs/2407.09652v1
- Date: Fri, 12 Jul 2024 19:21:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 21:28:05.271845
- Title: How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs
- Title(参考訳): 中国語モデルと中国語モデル : 中国のLLMにおける言語政策の欠如
- Authors: Andrea W Wen-Yi, Unso Eun Seo Jo, Lu Jia Lin, David Mimno,
- Abstract要約: 18言語で中国語企業によって事前訓練された6つのオープンソース多言語LPMを評価した。
実験の結果,中国における多言語でのLLMのパフォーマンスは国際LLMと区別できないことがわかった。
われわれは、中国のLLM開発において、言語多様性のいずれに対しても、一貫した政策の兆候は見つからない。
- 参考スコア(独自算出の注目度): 2.9123921488295768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contemporary language models are increasingly multilingual, but Chinese LLM developers must navigate complex political and business considerations of language diversity. Language policy in China aims at influencing the public discourse and governing a multi-ethnic society, and has gradually transitioned from a pluralist to a more assimilationist approach since 1949. We explore the impact of these influences on current language technology. We evaluate six open-source multilingual LLMs pre-trained by Chinese companies on 18 languages, spanning a wide range of Chinese, Asian, and Anglo-European languages. Our experiments show Chinese LLMs performance on diverse languages is indistinguishable from international LLMs. Similarly, the models' technical reports also show lack of consideration for pretraining data language coverage except for English and Mandarin Chinese. Examining Chinese AI policy, model experiments, and technical reports, we find no sign of any consistent policy, either for or against, language diversity in China's LLM development. This leaves a puzzling fact that while China regulates both the languages people use daily as well as language model development, they do not seem to have any policy on the languages in language models.
- Abstract(参考訳): 現代言語モデルは多言語化が進んでいるが、中国のLLM開発者は言語多様性に関する複雑な政治的・ビジネス的な考察を行わなければならない。
中国における言語政策は、公衆の言論に影響を及ぼし、多民族社会を統治することを目的としており、1949年以降、多民族主義からより同化主義的なアプローチへと徐々に移行してきた。
これらの影響が現在の言語技術に与える影響について検討する。
我々は、中国企業によって18言語で事前訓練された6つのオープンソース多言語LPMを評価し、中国、アジア、アングロ・ヨーロッパ諸言語にまたがる。
実験の結果,中国における多言語でのLLMのパフォーマンスは国際LLMと区別できないことがわかった。
同様に、これらのモデルの技術的報告は、英語とマンダリン中国語を除いて、データ言語を事前訓練するための考慮の欠如も示している。
中国のAI政策、モデル実験、技術報告を見れば、中国のLLM開発における言語多様性のいずれに対しても、一貫性のある政策の兆候は見つからない。
これは、中国が人々が毎日使っている言語と言語モデルの開発の両方を規制しているが、言語モデルにおける言語に関するポリシーを持っていない、という厄介な事実を残している。
関連論文リスト
- Teaching LLMs to Abstain across Languages via Multilingual Feedback [40.84205285309612]
多言語フィードバックは,多様な言語,文化,コミュニティ間の知識ギャップを識別する上で有効であることを示す。
大規模な実験により、多言語フィードバックアプローチは、様々な強いベースラインよりも優れていることが示された。
さらに分析したところ、多言語フィードバックは多言語話者に役立てるための効果的かつ公平な回避戦略であることがわかった。
論文 参考訳(メタデータ) (2024-06-22T21:59:12Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? [34.38469832305664]
異なる多言語性を持つ7種類の人的価値、16の言語、3のLLM系列を探索する。
これらの概念の言語間分析は、言語資源の相違から生じる3つの特徴を明らかにしている。
LLMの事前学習のための多言語データの合成について提案する。
論文 参考訳(メタデータ) (2024-02-28T07:18:39Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Taiwan LLM: Bridging the Linguistic Divide with a Culturally Aligned
Language Model [31.68119156599923]
本稿では,台湾のLLM(Large Language Model)について紹介する。
我々は,伝統的な中国語の複雑さだけでなく,台湾の文化的文脈を具現化したモデルを開発した。
論文 参考訳(メタデータ) (2023-11-29T09:48:34Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z) - CINO: A Chinese Minority Pre-trained Language Model [30.447739293695026]
中国語マイノリティ事前学習言語モデル(CINO)を提案する。
標準中国語、カントン諸語、その他の6つの少数言語をカバーしている。
論文 参考訳(メタデータ) (2022-02-28T06:02:06Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。