論文の概要: MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages
- arxiv url: http://arxiv.org/abs/2503.01150v1
- Date: Mon, 03 Mar 2025 03:56:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:24.425214
- Title: MiLiC-Eval: Benchmarking Multilingual LLMs for China's Minority Languages
- Title(参考訳): MiLiC-Eval: 中国の少数言語のための多言語LLMのベンチマーク
- Authors: Chen Zhang, Mingxu Tao, Zhiyuan Liao, Yansong Feng,
- Abstract要約: 中国のマイノリティ言語向けに設計されたベンチマークであるMiLiC-Evalを紹介します。
MiLiC-Evalは、表現不足の筆記システムに焦点を当て、言語と問題解決スキルのきめ細かい評価を提供する。
- 参考スコア(独自算出の注目度): 30.66853618502553
- License:
- Abstract: Large language models (LLMs) excel in high-resource languages but struggle with low-resource languages (LRLs), particularly those spoken by minority communities in China, such as Tibetan, Uyghur, Kazakh, and Mongolian. To systematically track the progress in these languages, we introduce MiLiC-Eval, a benchmark designed for minority languages in China, featuring 24K instances across 9 tasks. MiLiC-Eval focuses on underrepresented writing systems and provides a fine-grained assessment of linguistic and problem-solving skills. Our evaluation reveals that LLMs perform poorly on syntax-intensive tasks and multi-script languages. We further demonstrate how MiLiC-Eval can help advance LRL research in handling diverse writing systems and understanding the process of language adaptation.
- Abstract(参考訳): 大規模な言語モデル(LLMs)は、高リソース言語では優れているが、低リソース言語(LRLs)、特にチベット語、ウイグル語、カザフ語、モンゴル語など、中国の少数民族によって話されている言語と競合する。
これらの言語の進捗を体系的に追跡するために,中国のマイノリティ言語向けに設計されたベンチマークであるMiLiC-Evalを紹介した。
MiLiC-Evalは、表現不足の筆記システムに焦点を当て、言語と問題解決スキルのきめ細かい評価を提供する。
評価の結果,LLMは構文集約的なタスクやマルチスクリプト言語では不十分であることが判明した。
MiLiC-Evalは,多彩な書込みシステムや言語適応プロセスの理解において,LRL研究の進展にどのように役立つかを示す。
関連論文リスト
- INCLUDE: Evaluating Multilingual Language Understanding with Regional Knowledge [36.234295907476515]
機能的大規模言語モデル(LLM)の開発は、英語以外の言語における高品質な評価資源の欠如によってボトルネックとなっている。
本研究では,各地域における多言語LLMの能力を評価するため,現地試験資料から197,243対のQAペアの評価スイートを構築した。
論文 参考訳(メタデータ) (2024-11-29T16:03:14Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - How Chinese are Chinese Language Models? The Puzzling Lack of Language Policy in China's LLMs [2.9123921488295768]
18言語で中国語企業によって事前訓練された6つのオープンソース多言語LPMを評価した。
実験の結果,中国における多言語でのLLMのパフォーマンスは国際LLMと区別できないことがわかった。
われわれは、中国のLLM開発において、言語多様性のいずれに対しても、一貫した政策の兆候は見つからない。
論文 参考訳(メタデータ) (2024-07-12T19:21:40Z) - Teaching LLMs to Abstain across Languages via Multilingual Feedback [40.84205285309612]
多言語フィードバックは,多様な言語,文化,コミュニティ間の知識ギャップを識別する上で有効であることを示す。
大規模な実験により、多言語フィードバックアプローチは、様々な強いベースラインよりも優れていることが示された。
さらに分析したところ、多言語フィードバックは多言語話者に役立てるための効果的かつ公平な回避戦略であることがわかった。
論文 参考訳(メタデータ) (2024-06-22T21:59:12Z) - A Survey on Multilingual Large Language Models: Corpora, Alignment, and Bias [5.096332588720052]
本稿では,MLLMの進化,鍵技術,多言語能力について概説する。
第3に、多言語表現の最先端研究について調査し、現在のMLLMが普遍言語表現を学べるかどうかを検討する。
第4に,MLLMのカテゴリ,評価指標,脱バイアス技術などのバイアスについて論じる。
論文 参考訳(メタデータ) (2024-04-01T05:13:56Z) - LLMs Are Few-Shot In-Context Low-Resource Language Learners [59.74451570590808]
In-context Learning (ICL) は、大規模言語モデル(LLM)に、表現不足の言語で多様なタスクを実行する権限を与える。
ICLとその言語間変動(X-ICL)を25の低リソース言語と7の比較的高リソース言語で検討した。
本研究は,LLMの低リソース理解品質向上における文脈内情報の重要性を論じる。
論文 参考訳(メタデータ) (2024-03-25T07:55:29Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。