論文の概要: Exploring Design Choices for Building Language-Specific LLMs
- arxiv url: http://arxiv.org/abs/2406.14670v1
- Date: Thu, 20 Jun 2024 18:47:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-24 18:08:45.612733
- Title: Exploring Design Choices for Building Language-Specific LLMs
- Title(参考訳): 言語特異的LLM構築のための設計選択の探索
- Authors: Atula Tejaswi, Nilesh Gupta, Eunsol Choi,
- Abstract要約: 単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
適応前の初期性能が最終性能の指標であるとは限らないことが判明した。
最適適応法は非常に言語に依存しており、最も単純なアプローチは様々な実験環境においてうまく機能する。
- 参考スコア(独自算出の注目度): 36.32622880071991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite rapid progress in large language models (LLMs), their performance on a vast majority of languages remain unsatisfactory. In this paper, we study building language-specific LLMs by adapting monolingual and multilingual LLMs. We conduct systematic experiments on how design choices (base model selection, vocabulary extension, and continued fine-tuning) impact the adapted LLM, both in terms of efficiency (how many tokens are needed to encode the same amount of information) and end task performance. We find that (1) the initial performance before the adaptation is not always indicative of the final performance. (2) Efficiency can easily improved with simple vocabulary extension and continued fine-tuning in most LLMs we study, and (3) The optimal adaptation method is highly language-dependent, and the simplest approach works well across various experimental settings. Adapting English-centric models can yield better results than adapting multilingual models despite their worse initial performance on low-resource languages. Together, our work lays foundations on efficiently building language-specific LLMs by adapting existing LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)の急速な進歩にもかかわらず、ほとんどの言語のパフォーマンスは相変わらず満足できないままである。
本稿では,言語固有のLLMをモノリンガルおよび多言語LLMに適応させることにより構築する。
設計選択(基本モデル選択、語彙拡張、継続的な微調整)がLLMにどう影響するかを、効率(同じ量の情報をエンコードするためにトークンがいくつ必要か)とタスクパフォーマンスの両面で体系的に実験する。
1) 適応前の初期性能が最終性能の指標であるとは限らないことが判明した。
2) 簡便な語彙拡張と連続的な微調整により効率は容易に向上し, (3) 最適な適応法は言語に依存し, 最も単純なアプローチは様々な実験環境において良好に機能する。
低リソース言語での性能が悪くても、英語中心のモデルに適応すれば、多言語モデルに適応するよりも良い結果が得られる。
本研究は,既存の LLM を適応させることにより,言語固有の LLM を効率的に構築することの基礎となる。
関連論文リスト
- Bridging the Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
しかしながら、その傾向と有効性は、非ラテン文字や低リソース言語に限られている。
本稿では,LLMの多言語的性能向上を,広範囲の訓練や微調整を伴わずに行うことの必須課題に対処する。
論文 参考訳(メタデータ) (2024-05-28T16:56:42Z) - Getting More from Less: Large Language Models are Good Spontaneous Multilingual Learners [67.85635044939836]
大きな言語モデル(LLM)は印象的な言語機能を示している。
本研究では,LLMの自然多言語アライメント改善について検討する。
質問翻訳データ(すなわち注釈付き回答なし)に基づいて学習したLLMは、英語と幅広い言語との整合を促進できることがわかった。
論文 参考訳(メタデータ) (2024-05-22T16:46:19Z) - Is Translation All You Need? A Study on Solving Multilingual Tasks with Large Language Models [79.46179534911019]
大規模言語モデル (LLM) は多言語機能を示しているが、トレーニングコーパスの不均衡のため、主に英語中心である。
この作業は、NLPタスクから実際のユーザクエリまで、評価を拡張します。
深い言語理解を必要とする文化関連のタスクでは、ネイティブ言語のプロンプトがより有望になる傾向があります。
論文 参考訳(メタデータ) (2024-03-15T12:47:39Z) - Analyzing and Adapting Large Language Models for Few-Shot Multilingual
NLU: Are We There Yet? [82.02076369811402]
教師付きファインチューニング(SFT)、教師付きインストラクションチューニング(SIT)、インコンテキストラーニング(ICL)は、3つの代替であり、事実上の標準的アプローチである。
提案手法は,6つの高・低リソース言語,3つの異なるNLUタスク,多種多様な言語とドメインのセットアップを用いて,3つのアプローチを網羅的かつ体系的に比較する。
そこで本研究では,教師あり指導のチューニングが,性能とリソース要件の最良のトレードオフであることを示す。
論文 参考訳(メタデータ) (2024-03-04T10:48:13Z) - An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference [38.1823640848362]
State-of-the-the-art Generative Large Language Model (LLM) は、英語中心のトークン化器、語彙、事前学習データに依存している。
近年の研究では、英語以外の言語でテキストを生成する際に、推論効率が低下することが示されている。
論文 参考訳(メタデータ) (2024-02-16T14:15:15Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Okapi: Instruction-tuned Large Language Models in Multiple Languages
with Reinforcement Learning from Human Feedback [61.83548032416181]
複数の言語を対象としたRLHFに基づく命令調整型LLMシステムであるOkapiを提案する。
オカピは26の多言語言語でインストラクションと応答ランクデータを導入し、将来の多言語LLM研究の促進と開発に役立てている。
論文 参考訳(メタデータ) (2023-07-29T18:01:46Z) - Breaking Language Barriers with a LEAP: Learning Strategies for Polyglot
LLMs [5.682384717239095]
大規模言語モデル(LLM)は、世界中の多くのドメインを変換する最前線にある。
本稿では,LLMの多言語性能向上のための命令的課題に取り組む。
ポリグロットランドスケープにおけるLLMの真のポテンシャルを解き放つ新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。