Fugu-MT 論文翻訳(概要): Large Vocabulary Size Improves Large Language Models

論文の概要: Large Vocabulary Size Improves Large Language Models

arxiv url: http://arxiv.org/abs/2406.16508v1
Date: Mon, 24 Jun 2024 10:27:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 15:14:19.650613
Title: Large Vocabulary Size Improves Large Language Models
Title（参考訳）: 大きな語彙サイズは大きな言語モデルを改善する
Authors: Sho Takase, Ryokan Ri, Shun Kiyono, Takuya Kato,
Abstract要約: 単語語彙サイズと大規模言語モデル(LLM)の性能の関係について検討する。実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。
参考スコア（独自算出の注目度）: 28.83786065307658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper empirically investigates the relationship between subword vocabulary size and the performance of large language models (LLMs) to provide insights on how to define the vocabulary size. Experimental results show that larger vocabulary sizes lead to better performance in LLMs. Moreover, we consider a continual training scenario where a pre-trained language model is trained on a different target language. We introduce a simple method to use a new vocabulary instead of the pre-defined one. We show that using the new vocabulary outperforms the model with the vocabulary used in pre-training.
Abstract（参考訳）: 本稿では,語彙サイズと大規模言語モデル(LLM)の性能の関係を実証的に検討し,語彙サイズの定義方法について考察する。実験結果から,LLMの語彙サイズが大きくなると性能が向上することがわかった。さらに,事前学習された言語モデルを異なる対象言語で訓練する連続的な訓練シナリオについても考察する。事前定義された語彙の代わりに新しい語彙を使用するための簡単な方法を導入する。本稿では,新しい語彙を用いた場合,事前学習に使用する語彙がモデルより優れていることを示す。

関連論文リスト

Scaling LLM Pre-training with Vocabulary Curriculum [0.0]
本稿では,語彙サイズに対して,対数線形スケーリングゲインによる事前学習効率を向上させる手法である語彙カリキュラム学習を導入する。提案手法は,エントロピー誘導語彙拡張とモデル最適化を交互に行い,多様なトークン化粒度にまたがる変換可能な表現を学習する。小規模GPTモデルによる実験により,スケーリング効率が向上し,動的トークン化の有効性が向上した。
論文参考訳（メタデータ） (2025-02-25T07:18:29Z)
Adapters for Altering LLM Vocabularies: What Languages Benefit the Most? [23.83290627671739]
本稿では,既存の埋め込みの最適線形結合を学習するために訓練されたアダプタモジュールを用いた語彙適応手法を提案する。 VocADTは、外部リソースや言語制約を必要とせずに、柔軟でスケーラブルなソリューションを提供する。ラテン文字言語と高度に断片化された言語は語彙適応の恩恵を最も受ける。
論文参考訳（メタデータ） (2024-10-12T20:45:24Z)
How Can We Effectively Expand the Vocabulary of LLMs with 0.01GB of Target Language Text? [38.1823640848362]
大きな言語モデル(LLM)は、英語以外の多くの言語で顕著な能力を示している。 LLMは、英語中心のトークン化や語彙に依存するため、非英語のテキストを生成する際にさらに推論ステップを必要とする。ターゲット言語トークンによる語彙拡張は、この問題を改善するために広く使われている言語間語彙適応手法である。
論文参考訳（メタデータ） (2024-06-17T12:42:34Z)
The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。 Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文参考訳（メタデータ） (2023-11-16T09:35:50Z)
Translate to Disambiguate: Zero-shot Multilingual Word Sense Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。 C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文参考訳（メタデータ） (2023-04-26T19:55:52Z)
Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文参考訳（メタデータ） (2022-10-23T00:37:08Z)
Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。本研究では,このアプローチをニューラルLMの文脈で再考する。
論文参考訳（メタデータ） (2022-03-21T01:16:44Z)
Allocating Large Vocabulary Capacity for Cross-lingual Language Model Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文参考訳（メタデータ） (2021-09-15T14:04:16Z)
Does He Wink or Does He Nod? A Challenging Benchmark for Evaluating Word Understanding of Language Models [0.6091702876917281]
大規模コーパスにおける事前学習言語モデルの最近の進歩は、多くのNLPタスクにおいて大きなパフォーマンス向上をもたらした。どのような知識が獲得されたかを評価するため、言語モデルは通常、空白スタイルのクローゼ質問を埋めてクエリすることで探索される。単語の辞書定義を用いて単語理解を直接評価するためにWDLMProを導入する。
論文参考訳（メタデータ） (2021-02-06T15:15:57Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。