論文の概要: Multi-word Tokenization for Sequence Compression
- arxiv url: http://arxiv.org/abs/2402.09949v2
- Date: Thu, 4 Apr 2024 22:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 18:25:45.571107
- Title: Multi-word Tokenization for Sequence Compression
- Title(参考訳): シーケンス圧縮のためのマルチワードトークン化
- Authors: Leonidas Gee, Leonardo Rigutini, Marco Ernandes, Andrea Zugarini,
- Abstract要約: 本稿では,複数単語表現を単一トークンとして表現することで,単語境界を超えるマルチワードトケナイザ MWTを提案する。
以上の結果から,MWTは短いシーケンス長に対してより堅牢であり,早期シーケンス切断による大幅な高速化が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 0.94371657253557
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have proven highly successful at modelling a variety of tasks. However, this comes at a steep computational cost that hinders wider industrial uptake. In this paper, we present MWT: a Multi-Word Tokenizer that goes beyond word boundaries by representing frequent multi-word expressions as single tokens. MWTs produce a more compact and efficient tokenization that yields two benefits: (1) Increase in performance due to a greater coverage of input data given a fixed sequence length budget; (2) Faster and lighter inference due to the ability to reduce the sequence length with negligible drops in performance. Our results show that MWT is more robust across shorter sequence lengths, thus allowing for major speedups via early sequence truncation.
- Abstract(参考訳): 大規模言語モデルは、様々なタスクをモデル化するのに非常に成功した。
しかし、これは計算コストの急激な増加を招き、工業的普及を妨げている。
本稿では,多単語表現を単一トークンとして表現することで,単語境界を超えるマルチワードトケナイザ MWTを提案する。
MWT はよりコンパクトで効率的なトークン化を実現し,(1) 一定のシーケンス長の予算が与えられた場合の入力データのカバレッジ向上による性能向上,(2) 無視可能なドロップによるシーケンス長の削減による高速で軽量な推論,という2つの利点をもたらす。
以上の結果から,MWTは短いシーケンス長に対してより堅牢であり,早期シーケンス切断による大幅な高速化が可能であることが示唆された。
関連論文リスト
- Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting [5.697227044927832]
キーワードは最大キーワード長でバウンドされることが多いが、これは以前の作品ではほとんど上回っていない。
本稿では,より粒度の細かい音声テキスト関係を学習するためのサブシーケンスレベルのマッチング方式を提案する。
提案手法は、ハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。
論文 参考訳(メタデータ) (2024-09-06T01:08:29Z) - SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context [49.9628075245959]
本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。
提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
論文 参考訳(メタデータ) (2024-08-01T15:45:19Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference [41.93955876156331]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めた。
推論プロセスは、デコードの各ステップにおける単一トーケン生成により、相当な時間とエネルギー要求によって妨げられる。
MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
論文 参考訳(メタデータ) (2024-07-12T23:29:54Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。