論文の概要: The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics
- arxiv url: http://arxiv.org/abs/2311.09709v2
- Date: Sun, 28 Apr 2024 23:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 00:25:09.565643
- Title: The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics
- Title(参考訳): 語彙トリミングによる大言語モデル推論の言語ヒューリスティックスによるアップアンドダウン
- Authors: Nikolay Bogoychev, Pinzhen Chen, Barry Haddow, Alexandra Birch,
- Abstract要約: 本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
- 参考スコア(独自算出の注目度): 74.99898531299148
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LLMs) encounters challenges due to intensive computational and memory requirements. Our research examines vocabulary trimming (VT) inspired by restricting embedding entries to the language of interest to bolster time and memory efficiency. While such modifications have been proven effective in tasks like machine translation, tailoring them to LLMs demands specific modifications given the diverse nature of LLM applications. We apply two language heuristics to trim the full vocabulary - Unicode-based script filtering and corpus-based selection - to different LLM families and sizes. The methods are straightforward, interpretable, and easy to implement. It is found that VT reduces the memory usage of small models by nearly 50% and has an upper bound of 25% improvement in generation speed. Yet, we reveal the limitations of these methods in that they do not perform consistently well for each language with diminishing returns in larger models.
- Abstract(参考訳): 大規模言語モデル(LLM)のデプロイは、計算とメモリの集中的な要求による課題に直面する。
本研究は, 語彙トリミング(VT)について, 興味のある言語への埋め込みを制限し, 時間と記憶効率を向上することから着想を得たものである。
このような変更は機械翻訳のようなタスクで有効であることが証明されているが、LLMの多様な性質を考慮すると、それらをLLMに適合させるには特定の修正が必要である。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語ヒューリスティックを異なるLLMファミリーやサイズに適用する。
メソッドは単純で、解釈可能で、実装も簡単です。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
しかし、これらの手法の限界は、より大規模なモデルではリターンが減少し、各言語で一貫してうまく機能しないということを明らかにする。
関連論文リスト
- Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Exploring Design Choices for Building Language-Specific LLMs [36.32622880071991]
単言語モデルと多言語モデルを適用し,言語固有の言語モデルの構築について検討する。
LLMの初期性能は適応後の最終性能と必ずしも相関しないことがわかった。
論文 参考訳(メタデータ) (2024-06-20T18:47:43Z) - How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [38.1823640848362]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。
LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。
ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文 参考訳(メタデータ) (2024-06-17T12:42:34Z) - Accelerating Multilingual Language Model for Excessively Tokenized Languages [3.5570874721859016]
大型言語モデル(LLM)のトークン化子は、文字やUnicodeレベルのトークンを非ローマ語アルファベットの言語で断片化することが多い。
このような言語でテキスト生成を高速化する,シンプルで効果的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-19T12:26:57Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した
入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文 参考訳(メタデータ) (2023-05-11T05:19:47Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。