論文の概要: Multi-Word Tokenization for Sequence Compression
- arxiv url: http://arxiv.org/abs/2402.09949v1
- Date: Thu, 15 Feb 2024 13:52:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 15:52:54.736237
- Title: Multi-Word Tokenization for Sequence Compression
- Title(参考訳): シーケンス圧縮のためのマルチワードトークン化
- Authors: Leonidas Gee and Leonardo Rigutini and Marco Ernandes and Andrea
Zugarini
- Abstract要約: 本稿では,複数単語表現を単一トークンとして表現することで,単語境界を超えるマルチワードトケナイザ MWTを提案する。
以上の結果から,MWTは短いシーケンス長に対してより堅牢であり,早期シーケンス切断による大幅な高速化が可能であることが示唆された。
- 参考スコア(独自算出の注目度): 1.0124625066746595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models have proven highly successful at modelling a variety of
tasks. However, this comes at a steep computational cost that hinders wider
industrial uptake. In this pa005 per, we present MWT: a Multi-Word Tokenizer
that goes beyond word boundaries by representing frequent multi-word
expressions as single tokens. MWTs produce a more compact and efficient
tokenization that yields two benefits: (1) Increase in performance due to a
greater coverage of input data given a fixed sequence length and budget; (2)
Faster and lighter inference due to the ability to reduce the sequence length
with negligible drops in performance. Our results show that MWT is more robust
across shorter sequence lengths, thus allowing for major speedups via early
sequence truncation.
- Abstract(参考訳): 大規模言語モデルは様々なタスクをモデル化するのに非常に成功した。
しかし、これは計算コストが急上昇し、産業的な普及を妨げている。
このpa005 perでは、MWT: 単語境界を超えるマルチワードトークン表現を単一トークンとして表現することで、単語境界を超えるマルチワードトークンを提示する。
mwtsはよりコンパクトで効率的なトークン化を実現し、(1)シーケンス長と予算が固定された入力データのカバレッジ向上によるパフォーマンス向上、2性能低下によるシーケンス長の削減能力による推論の高速化と軽量化、という2つのメリットがある。
その結果,mwtはより短いシーケンス長でより頑健であり,初期シーケンス切断による高速化が可能となった。
関連論文リスト
- Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。
完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。
セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T06:29:20Z) - SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting [5.697227044927832]
キーワードは最大キーワード長でバウンドされることが多いが、これは以前の作品ではほとんど上回っていない。
本稿では,より粒度の細かい音声テキスト関係を学習するためのサブシーケンスレベルのマッチング方式を提案する。
提案手法は、ハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。
論文 参考訳(メタデータ) (2024-09-06T01:08:29Z) - SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context [49.9628075245959]
本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。
提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
論文 参考訳(メタデータ) (2024-08-01T15:45:19Z) - Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。
我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文 参考訳(メタデータ) (2024-07-25T16:13:58Z) - Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference [41.93955876156331]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めた。
推論プロセスは、デコードの各ステップにおける単一トーケン生成により、相当な時間とエネルギー要求によって妨げられる。
MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
論文 参考訳(メタデータ) (2024-07-12T23:29:54Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for
Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。
各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-05T14:13:50Z) - Efficient Long-Range Transformers: You Need to Attend More, but Not
Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。
MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。
実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文 参考訳(メタデータ) (2023-10-19T03:32:05Z) - LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。
我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文 参考訳(メタデータ) (2023-07-05T17:59:38Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。