論文の概要: ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model
- arxiv url: http://arxiv.org/abs/2410.04335v1
- Date: Sun, 6 Oct 2024 03:01:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 08:20:17.253251
- Title: ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model
- Title(参考訳): ReTok: 大規模言語モデルにおける表現効率を高めるために、トークンライザをリプレースする
- Authors: Shuhao Gu, Mengdi Zhao, Bowen Zhang, Liangdong Wang, Jijie Li, Guang Liu,
- Abstract要約: 大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。
本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 9.1108256816605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenizer is an essential component for large language models (LLMs), and a tokenizer with a high compression rate can improve the model's representation and processing efficiency. However, the tokenizer cannot ensure high compression rate in all scenarios, and an increase in the average input and output lengths will increases the training and inference costs of the model. Therefore, it is crucial to find ways to improve the model's efficiency with minimal cost while maintaining the model's performance. In this work, we propose a method to improve model representation and processing efficiency by replacing the tokenizers of LLMs. We propose replacing and reinitializing the parameters of the model's input and output layers with the parameters of the original model, and training these parameters while keeping other parameters fixed. We conducted experiments on different LLMs, and the results show that our method can maintain the performance of the model after replacing the tokenizer, while significantly improving the decoding speed for long texts.
- Abstract(参考訳): Tokenizerは大規模言語モデル(LLM)に不可欠なコンポーネントであり、高い圧縮率のトークン化器はモデルの表現と処理効率を向上させることができる。
しかし、トークン化器は全てのシナリオにおいて高い圧縮速度を保証することができず、平均入力および出力長の増加はモデルのトレーニングと推論コストを増大させる。
したがって、モデルの性能を維持しながら、最小限のコストでモデルの効率を改善する方法を見つけることが重要である。
本研究では, LLMのトークン化機能を置き換えることで, モデル表現と処理効率を向上させる手法を提案する。
モデルの入力層と出力層のパラメータを元のモデルのパラメータに置き換えて再起動し、他のパラメータを固定しながらこれらのパラメータをトレーニングする。
我々は,異なるLLM実験を行い,その結果から,トークン化器を置き換えたモデルの性能を維持できるとともに,長文の復号速度を大幅に向上できることを示した。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Efficient Source-Free Time-Series Adaptation via Parameter Subspace Disentanglement [0.7558576228782637]
我々は、効率的なソースフリードメイン適応(SFDA)のためのフレームワークを提案する。
提案手法は,ソースモデル作成およびターゲット側適応のための改良されたパラダイムを導入する。
我々は,本フレームワークが様々なSFDA法と互換性があり,計算効率が高いことを実証した。
論文 参考訳(メタデータ) (2024-10-03T02:12:03Z) - Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
適応スパーストレーナー(AST)と呼ばれるリトレーニングによる半構造化スパースモデルのプルーニングパイプラインを提案する。
ASTは、モデルがトレーニングプロセスを通して適応的にマスクを選択することを可能にし、マスキング重みに減衰を施すことにより、密度の高いモデルをスパースモデルに変換する。
本研究は,半構造化されたスパース言語モデルの実現可能性を示し,高度に圧縮されたモデルを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-30T06:33:44Z) - XMoE: Sparse Models with Fine-grained and Adaptive Expert Selection [30.687511115573038]
ツールは、スパースMoEモデルの有効性と効率を高めるために設計された新しいMoEである。
パフォーマンスを犠牲にすることなく、MoE層の計算負荷を50%以上削減しながら、モデルパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-02-27T08:18:02Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - LegoNet: A Fast and Exact Unlearning Architecture [59.49058450583149]
機械学習は、トレーニングされたモデルから削除された要求に対する特定のトレーニングサンプルの影響を削除することを目的としている。
固定エンコーダ+複数アダプタのフレームワークを採用した新しいネットワークである textitLegoNet を提案する。
我々は、LegoNetが許容できる性能を維持しつつ、高速かつ正確な未学習を実現し、未学習のベースラインを総合的に上回っていることを示す。
論文 参考訳(メタデータ) (2022-10-28T09:53:05Z) - MoEfication: Conditional Computation of Transformer Models for Efficient
Inference [66.56994436947441]
トランスフォーマーベースの事前学習言語モデルは、パラメータ容量が大きいため、ほとんどのNLPタスクにおいて優れた性能を実現することができるが、計算コストも大きい。
スパースアクティベーション現象に基づく条件計算により,大規模モデル推論を高速化する。
そこで本研究では,モデルサイズが等しいMoE(Mix-of-experts)バージョン,すなわちMoEficationに変換することを提案する。
論文 参考訳(メタデータ) (2021-10-05T02:14:38Z) - Efficient End-to-End Speech Recognition Using Performers in Conformers [74.71219757585841]
モデルサイズに加えて,モデルアーキテクチャの複雑さを低減することを提案する。
提案モデルにより,1000万のパラメータと線形複雑度を持つLibriSpeechコーパス上での競合性能が得られた。
論文 参考訳(メタデータ) (2020-11-09T05:22:57Z) - Rethinking embedding coupling in pre-trained language models [46.11201932668366]
我々は、事前学習された言語モデルにおける入力と出力の埋め込みの重みを共有する標準的な方法を再評価する。
分離された埋め込みによりモデリングの柔軟性が向上し、パラメータ割り当ての効率が大幅に向上することを示す。
我々は、微調整段階においてパラメータの数を増やすことなく、XTREMEベンチマークで高い性能を達成するモデルを訓練することができる。
論文 参考訳(メタデータ) (2020-10-24T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。