論文の概要: An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient
Generative LLM Inference
- arxiv url: http://arxiv.org/abs/2402.10712v1
- Date: Fri, 16 Feb 2024 14:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:50:03.812842
- Title: An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient
Generative LLM Inference
- Title(参考訳): 効率的な生成LLM推論のための言語間語彙適応に関する実証的研究
- Authors: Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras
- Abstract要約: State-of-the-the-art Generative Large Language Model (LLM) は、英語中心のトークン化器、語彙、事前学習データに依存している。
近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
下流の性能向上を目的としたターゲット言語にモデルを適用するための言語間語彙適応法が提案されている。
- 参考スコア(独自算出の注目度): 42.9131507906874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of state-of-the-art generative large language models (LLMs)
disproportionately relies on English-centric tokenizers, vocabulary and
pre-training data. Despite the fact that some LLMs have multilingual
capabilities, recent studies have shown that their inference efficiency
deteriorates when generating text in languages other than English. This results
in increased inference time and costs. Cross-lingual vocabulary adaptation
methods have been proposed for adapting models to a target language aiming to
improve downstream performance. However, the effectiveness of these methods on
increasing inference efficiency of generative LLMs has yet to be explored. In
this paper, we perform an empirical study of various cross-lingual vocabulary
adaptation methods on five generative LLMs (including monolingual and
multilingual models) across four typologically-diverse languages and four
natural language understanding tasks. We find that cross-lingual vocabulary
adaptation substantially contributes to LLM inference speedups of up to 271.5%.
We also show that adapting LLMs that have been pre-trained on more balanced
multilingual data results in downstream performance comparable to the original
models.
- Abstract(参考訳): state-of-the-art generative large language model (llms)の開発は、英語中心のトークンや語彙、事前学習データに依存する。
LLMには多言語機能があるにもかかわらず、近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
その結果、推論時間とコストが増加する。
下流のパフォーマンス向上を目的としたターゲット言語へのモデル適応のために,言語間語彙適応手法が提案されている。
しかし, 生成LDMの推論効率向上に対するこれらの手法の有効性は未だ検討されていない。
本稿では,4つの言語と4つの自然言語理解タスクにまたがる5つの生成LLM(単言語モデルと多言語モデルを含む)に対して,言語間語彙適応手法の実証的研究を行った。
言語間の語彙適応はLLMの推論速度を最大271.5%に向上させる。
また、よりバランスの取れた多言語データに事前学習されたLLMを適用することで、元のモデルに匹敵するダウンストリーム性能が得られることを示す。
関連論文リスト
- Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large
Language Models [122.25217086389425]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.501728534887455]
24個の単言語LLMと多言語LLMを学習し,トークン化剤の選択がLLM下流性能に及ぼす影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンス、トレーニング、推論コストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot
LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
本稿では,LLMの多言語性能向上のための命令的課題に取り組む。
ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z) - Don't Trust ChatGPT when Your Question is not in English: A Study of
Multilingual Abilities and Types of LLMs [16.770697902481107]
大規模言語モデル(LLM)は、例外的な自然言語理解能力を示している。
本論文では,多言語環境下でのLLMの性能格差を体系的に評価する方法を提案する。
その結果,GPTは多言語設定において高い翻訳的振る舞いを示すことがわかった。
論文 参考訳(メタデータ) (2023-05-24T02:05:03Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。