論文の概要: LLaMA Beyond English: An Empirical Study on Language Capability Transfer
- arxiv url: http://arxiv.org/abs/2401.01055v2
- Date: Fri, 12 Jan 2024 08:14:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 21:18:32.387280
- Title: LLaMA Beyond English: An Empirical Study on Language Capability Transfer
- Title(参考訳): LLaMA Beyond English: 言語の能力伝達に関する実証的研究
- Authors: Jun Zhao, Zhihao Zhang, Luhui Gao, Qi Zhang, Tao Gui, Xuanjing Huang
- Abstract要約: 我々は、言語生成の能力と指示を英語以外の言語に効果的に伝達する方法に焦点をあてる。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響について分析する。
C-Eval、MMLU、AGI-Eval、GAokao-Benchの4つの広く使われている標準テストベンチマークを採用しています。
- 参考スコア(独自算出の注目度): 49.298360366468934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent times, substantial advancements have been witnessed in large
language models (LLMs), exemplified by ChatGPT, showcasing remarkable
proficiency across a range of complex tasks. However, many mainstream LLMs
(e.g. LLaMA) are pretrained on English-dominant corpus, which limits their
performance in other non-English languages. In this paper, we focus on how to
effectively transfer the capabilities of language generation and following
instructions to a non-English language. To answer this question, we conduct an
extensive empirical investigation based on LLaMA, accumulating over 1440 GPU
hours. We analyze the impact of key factors such as vocabulary extension,
further pretraining, and instruction tuning on transfer. To accurately assess
the model's level of knowledge, we employ four widely used standardized testing
benchmarks: C-Eval, MMLU, AGI-Eval, and GAOKAO-Bench. Furthermore, a
comprehensive evaluation of the model's response quality is conducted,
considering aspects such as accuracy, fluency, informativeness, logical
coherence, and harmlessness, based on LLM-Eval, a benchmarks consisting
instruction tasks from 17 diverse categories. Our evaluation results
demonstrate that comparable performance to state-of-the-art transfer models can
be achieved with less than 1% of the pretraining data, both in terms of
knowledge alignment and response quality. Furthermore, the experimental
outcomes across the thirteen low-resource languages also exhibit similar
trends. We anticipate that the conclusions revealed by the experiments will aid
the community in developing non-English LLMs.
- Abstract(参考訳): 近年、ChatGPTによって実証された大規模言語モデル(LLM)では、様々な複雑なタスクにおいて顕著な習熟度を示している。
しかし、LLaMA のような多くの主要な LLM は、英語以外の言語での性能を制限する英語に支配的なコーパスで事前訓練されている。
本稿では,非英語の言語に対して,言語生成と従属命令の機能を効果的に伝達する方法に着目する。
この疑問に答えるために、LLaMAに基づいて1440時間以上のGPU時間を蓄積し、広範な実証調査を行う。
本稿では,語彙拡張や事前学習,トランスファーに対する指導指導などの重要な要因が与える影響を分析する。
モデルの知識レベルを正確に評価するために, C-Eval, MMLU, AGI-Eval, GAokao-Benchの4つの標準テストベンチマークを用いた。
さらに, llm-eval に基づいて, 精度, フラレンシ, 情報性, 論理的コヒーレンス, および無害性などの側面を考慮して, モデルの応答品質の包括的評価を行った。
評価結果は,知識アライメントと応答品質の両面で,事前学習データの1%未満で,最先端の転送モデルに匹敵する性能を達成できることを実証した。
さらに、13の低リソース言語に対する実験結果も同様の傾向を示した。
実験の結果から得られた結論が,非英語 LLM 開発におけるコミュニティの助けとなることを期待する。
関連論文リスト
- Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。
InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文 参考訳(メタデータ) (2024-06-25T13:20:08Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference [38.1823640848362]
State-of-the-the-art Generative Large Language Model (LLM) は、英語中心のトークン化器、語彙、事前学習データに依存している。
近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
論文 参考訳(メタデータ) (2024-02-16T14:15:15Z) - Are Large Language Models Good Fact Checkers: A Preliminary Study [26.023148371263012]
大規模言語モデル(LLM)は、その卓越した推論能力と広範な知識リポジトリによって、大きな注目を集めている。
本研究の目的は,特定のファクトチェックサブタスクに対処する上で,様々なLSMを包括的に評価することである。
論文 参考訳(メタデータ) (2023-11-29T05:04:52Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - Towards a Common Understanding of Contributing Factors for Cross-Lingual
Transfer in Multilingual Language Models: A Review [2.578242050187029]
事前訓練された多言語言語モデル(MLLM)は、異なる言語間で知識を伝達する強力な能力を示している。
その出現について独特で分かりやすい説明を得ることは困難である。
このレビューは、まず、将来の研究のための整合した基準点を提供し、次に、MLLMの言語間能力を活用するためのより良いインフォームドおよびより効率的な方法のガイダンスを提供する。
論文 参考訳(メタデータ) (2023-05-26T09:31:12Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。