論文の概要: An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient
Generative LLM Inference
- arxiv url: http://arxiv.org/abs/2402.10712v1
- Date: Fri, 16 Feb 2024 14:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:50:03.812842
- Title: An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient
Generative LLM Inference
- Title(参考訳): 効率的な生成LLM推論のための言語間語彙適応に関する実証的研究
- Authors: Atsuki Yamaguchi, Aline Villavicencio, Nikolaos Aletras
- Abstract要約: State-of-the-the-art Generative Large Language Model (LLM) は、英語中心のトークン化器、語彙、事前学習データに依存している。
近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
下流の性能向上を目的としたターゲット言語にモデルを適用するための言語間語彙適応法が提案されている。
- 参考スコア(独自算出の注目度): 42.9131507906874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of state-of-the-art generative large language models (LLMs)
disproportionately relies on English-centric tokenizers, vocabulary and
pre-training data. Despite the fact that some LLMs have multilingual
capabilities, recent studies have shown that their inference efficiency
deteriorates when generating text in languages other than English. This results
in increased inference time and costs. Cross-lingual vocabulary adaptation
methods have been proposed for adapting models to a target language aiming to
improve downstream performance. However, the effectiveness of these methods on
increasing inference efficiency of generative LLMs has yet to be explored. In
this paper, we perform an empirical study of various cross-lingual vocabulary
adaptation methods on five generative LLMs (including monolingual and
multilingual models) across four typologically-diverse languages and four
natural language understanding tasks. We find that cross-lingual vocabulary
adaptation substantially contributes to LLM inference speedups of up to 271.5%.
We also show that adapting LLMs that have been pre-trained on more balanced
multilingual data results in downstream performance comparable to the original
models.
- Abstract(参考訳): state-of-the-art generative large language model (llms)の開発は、英語中心のトークンや語彙、事前学習データに依存する。
LLMには多言語機能があるにもかかわらず、近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
その結果、推論時間とコストが増加する。
下流のパフォーマンス向上を目的としたターゲット言語へのモデル適応のために,言語間語彙適応手法が提案されている。
しかし, 生成LDMの推論効率向上に対するこれらの手法の有効性は未だ検討されていない。
本稿では,4つの言語と4つの自然言語理解タスクにまたがる5つの生成LLM(単言語モデルと多言語モデルを含む)に対して,言語間語彙適応手法の実証的研究を行った。
言語間の語彙適応はLLMの推論速度を最大271.5%に向上させる。
また、よりバランスの取れた多言語データに事前学習されたLLMを適用することで、元のモデルに匹敵するダウンストリーム性能が得られることを示す。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Improving Bilingual Capabilities of Language Models to Support Diverse Linguistic Practices in Education [3.799331337558008]
大規模言語モデル(LLM)は、教育コンテンツの生成、インストラクターのフィードバックの提供、アセスメントにおける教師の作業量の削減を約束する。
本研究では,多言語大言語モデル(MLLM)がモノリンガル(英語のみ,スペイン語のみ)とバイリンガル(スパングリッシュ)にまたがって有効であることを示す。
論文 参考訳(メタデータ) (2024-11-06T23:16:25Z) - Bridging the Language Gaps in Large Language Models with Inference-Time Cross-Lingual Intervention [71.12193680015622]
大規模言語モデル(LLM)は自然言語処理において顕著な能力を示している。
LLMは異なる言語間で大きな性能差を示す。
Inference-Time Cross-Lingual Intervention (INCLINE) を提案する。
論文 参考訳(メタデータ) (2024-10-16T11:23:03Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean [3.4735169184479524]
大規模言語モデル (LLM) は、事前学習を用いてその後の単語を予測するが、その拡張にはかなりの計算資源が必要である。
本研究では, 公開されているMLLMをベースとしたLRLの性能向上のための3つの手法を提案する。
論文 参考訳(メタデータ) (2024-03-16T10:26:38Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z) - Tokenizer Choice For LLM Training: Negligible or Crucial? [30.33170936148845]
24個の単言語LLMと多言語LLMを学習し,トークン化選択が大規模言語モデル(LLM)の下流性能に与える影響について検討した。
トークン化ツールの選択は、ダウンストリームのパフォーマンスとトレーニングコストに大きな影響を与えます。
ヨーロッパの5言語で訓練された多言語トークン化器は,英語と比較して語彙サイズが3倍に大きくなることが示唆された。
論文 参考訳(メタデータ) (2023-10-12T22:44:19Z) - Democratizing LLMs for Low-Resource Languages by Leveraging their English Dominant Abilities with Linguistically-Diverse Prompts [75.33019401706188]
大規模言語モデル(LLM)は、少数の例を単純に観察することで、効果的にタスクを実行することが知られている。
我々は,LLMが任意の言語から英語に翻訳するよう促すために,多種多様な高ソース言語から合成例を組み立てることを提案する。
我々の教師なしプロンプト法は、英語と13のIndic言語と21のアフリカ低リソース言語間の翻訳において、異なる大きさのLLMにおける教師付き少ショット学習と同等に機能する。
論文 参考訳(メタデータ) (2023-06-20T08:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。