Fugu-MT 論文翻訳(概要): Scaling Embedding Layers in Language Models

論文の概要: Scaling Embedding Layers in Language Models

arxiv url: http://arxiv.org/abs/2502.01637v1
Date: Mon, 03 Feb 2025 18:59:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:55.373238
Title: Scaling Embedding Layers in Language Models
Title（参考訳）: 言語モデルにおける埋め込みレイヤのスケーリング
Authors: Da Yu, Edith Cohen, Badih Ghazi, Yangsibo Huang, Pritish Kamath, Ravi Kumar, Daogao Liu, Chiyuan Zhang,
Abstract要約: SCONEは、キャッシュされた$n$-gram埋め込みの数を増やし、それらを学ぶのに使用されるモデルをスケーリングする、固定された推論時間FLOPSを維持しながら、2つの新しいスケーリング戦略を実現する。両面のスケーリングにより,SCONE は推論時間 FLOPS の半分しか使用せず,多様なコーパスで 1.9B パラメータのベースラインを上回り得ることを示す。
参考スコア（独自算出の注目度）: 52.47659840377581
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose SCONE ($\textbf{S}$calable, $\textbf{C}$ontextualized, $\textbf{O}$ffloaded, $\textbf{N}$-gram $\textbf{E}$mbedding), a method for extending input embedding layers to enhance language model performance as layer size scales. To avoid increased decoding costs, SCONE retains the original vocabulary while introducing embeddings for a set of frequent $n$-grams. These embeddings provide contextualized representation for each input token and are learned with a separate model during training. During inference, they are precomputed and stored in off-accelerator memory with minimal impact on inference speed. SCONE enables two new scaling strategies: increasing the number of cached $n$-gram embeddings and scaling the model used to learn them, all while maintaining fixed inference-time FLOPS. We show that scaling both aspects allows SCONE to outperform a 1.9B parameter baseline across diverse corpora, while using only half the inference-time FLOPS.
Abstract（参考訳）: 我々はSCONE$\textbf{S}$calable, $\textbf{C}$ontextualized, $\textbf{O}$ffloaded, $\textbf{N}$-gram $\textbf{E}$mbeddingを提案する。復号コストの増大を避けるため、SCONEは元々の語彙を保ちながら、頻繁に$n$-gramの埋め込みを導入している。これらの埋め込みは、各入力トークンに対してコンテキスト化された表現を提供し、トレーニング中に別のモデルで学習する。推論中は、プリ計算され、推論速度への影響を最小限に抑えながら、オフアクセラレータメモリに格納される。 SCONEは、キャッシュされた$n$-gram埋め込みの数を増やし、それらを学ぶのに使用されるモデルをスケーリングする、固定された推論時間FLOPSを維持する、という2つの新しいスケーリング戦略を実現する。両面のスケーリングにより,SCONE は推論時間 FLOPS の半分しか使用せず,多様なコーパスで 1.9B パラメータのベースラインを上回り得ることを示す。

関連論文リスト

Position-Aware Depth Decay Decoding ($D^3$): Boosting Large Language Model Inference Efficiency [26.173523821684306]
トークン配置対応層スキップフレームワークを提案し,性能を維持しつつ1.5倍の演算を効率よく節約する。 7 sim 70$のパラメータを持つ大規模言語モデルの実験では、D3$は完全な推論パイプラインと比較して平均1.5倍のスピードアップを達成することができる。
論文参考訳（メタデータ） (2025-03-11T15:15:54Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
$\text{M}^{\text{3}}$: A Modular World Model over Streams of Tokens [51.65485693709418]
トークン化を個別に最適化しながら、トークンストリームを動的にモデリングする、有望なモジュラーフレームワークとして、トークンベースのワールドモデルが登場した。本稿では、このフレームワークを拡張した、$textbfm$odular $textbfw$orld $textbfm$odelを紹介します。 $textMtext3$は、エージェントのパフォーマンスを向上させるために、既存の文献からいくつかの改善を実現している。
論文参考訳（メタデータ） (2025-02-17T08:06:10Z)
ST$^3$: Accelerating Multimodal Large Language Model by Spatial-Temporal Visual Token Trimming [14.937905258757635]
$textbfST3$は、再トレーニングせずにMLLM推論を高速化するように設計されたフレームワークである。 $textbfST3$は、既存のトレーニング済みMLLMにシームレスに統合できる。
論文参考訳（メタデータ） (2024-12-28T10:17:29Z)
OFA: A Framework of Initializing Unseen Subword Embeddings for Efficient Large-scale Multilingual Continued Pretraining [49.213120730582354]
言語モデルをスクラッチから事前学習する代わりに、既存の事前学習言語モデル(PLM)を語彙拡張と継続事前学習を通じて新しい言語に適応させることがより効率的な方法である。我々は、新しいフレームワークを提案する: $textbfO$ne $textbfF$or $textbfA$ll。
論文参考訳（メタデータ） (2023-11-15T10:40:45Z)
Towards A Unified View of Sparse Feed-Forward Network in Pretraining Large Language Model [58.9100867327305]
大規模かつスパースなフィードフォワード層(S-FFN)は、大きな言語モデルをテキスト処理するためにTransformersモデルのサイズをスケールアップするのに有効であることが証明されている。我々は,S-FFNの2つの主要な設計選択,すなわち,メモリブロックのサイズとメモリブロックの選択方法について分析した。言語モデルの事前学習において,より単純な選択方法である textbftextttAvg-K が得られた。
論文参考訳（メタデータ） (2023-05-23T12:28:37Z)
Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。 Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2022-12-15T20:51:27Z)
Regularized Training of Nearest Neighbor Language Models [10.994336081018043]
我々は、トレーニングデータ(メモリバンク)を通じて、トレーニング済みの言語モデルと徹底的な$k$NN検索を用いて、最先端の結果を得る、$k$NN-LM citepkhandelwal20 Generalizationを構築した。その結果,L2正則化は低周波ワードの性能を劣化させることなく,高周波ワードの性能を向上させることがわかった。
論文参考訳（メタデータ） (2021-09-16T23:20:24Z)
Improving Robustness and Generality of NLP Models Using Disentangled Representations [62.08794500431367]
スーパービジョンニューラルネットワークはまず入力$x$を単一の表現$z$にマップし、次に出力ラベル$y$にマッピングする。本研究では,非交叉表現学習の観点から,NLPモデルの堅牢性と汎用性を改善する手法を提案する。提案した基準でトレーニングしたモデルは、広範囲の教師付き学習タスクにおいて、より堅牢性とドメイン適応性を向上することを示す。
論文参考訳（メタデータ） (2020-09-21T02:48:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。