Fugu-MT 論文翻訳(概要): Multi-word Tokenization for Sequence Compression

論文の概要: Multi-word Tokenization for Sequence Compression

arxiv url: http://arxiv.org/abs/2402.09949v2
Date: Thu, 4 Apr 2024 22:50:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-08 18:25:45.571107
Title: Multi-word Tokenization for Sequence Compression
Title（参考訳）: シーケンス圧縮のためのマルチワードトークン化
Authors: Leonidas Gee, Leonardo Rigutini, Marco Ernandes, Andrea Zugarini,
Abstract要約: 本稿では,複数単語表現を単一トークンとして表現することで,単語境界を超えるマルチワードトケナイザ MWTを提案する。以上の結果から,MWTは短いシーケンス長に対してより堅牢であり,早期シーケンス切断による大幅な高速化が可能であることが示唆された。
参考スコア（独自算出の注目度）: 0.94371657253557
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models have proven highly successful at modelling a variety of tasks. However, this comes at a steep computational cost that hinders wider industrial uptake. In this paper, we present MWT: a Multi-Word Tokenizer that goes beyond word boundaries by representing frequent multi-word expressions as single tokens. MWTs produce a more compact and efficient tokenization that yields two benefits: (1) Increase in performance due to a greater coverage of input data given a fixed sequence length budget; (2) Faster and lighter inference due to the ability to reduce the sequence length with negligible drops in performance. Our results show that MWT is more robust across shorter sequence lengths, thus allowing for major speedups via early sequence truncation.
Abstract（参考訳）: 大規模言語モデルは、様々なタスクをモデル化するのに非常に成功した。しかし、これは計算コストの急激な増加を招き、工業的普及を妨げている。本稿では,多単語表現を単一トークンとして表現することで,単語境界を超えるマルチワードトケナイザ MWTを提案する。 MWT はよりコンパクトで効率的なトークン化を実現し,(1) 一定のシーケンス長の予算が与えられた場合の入力データのカバレッジ向上による性能向上,(2) 無視可能なドロップによるシーケンス長の削減による高速で軽量な推論,という2つの利点をもたらす。以上の結果から,MWTは短いシーケンス長に対してより堅牢であり,早期シーケンス切断による大幅な高速化が可能であることが示唆された。

関連論文リスト

Modality Agnostic Efficient Long Range Encoder [14.705955027331674]
汎用実装を用いた単一デバイス上での長文処理の課題に対処する。これらの制約を克服するために、統一的で効率的なトランスアーキテクチャであるMAELREを提案する。我々は、MAELREが既存の長文モデルと比較して計算コストを低減しつつ、優れた精度を達成できることを実証した。
論文参考訳（メタデータ） (2025-07-25T16:19:47Z)
R-Stitch: Dynamic Trajectory Stitching for Efficient Reasoning [60.37610817226533]
CoT推論(Chain-of-Thought reasoning)は、推論中の中間推論をステップバイステップで促進する。 CoTは、長いトークンシーケンスに対する自己回帰復号化に依存するため、かなりの計算オーバーヘッドを導入している。本稿では,CoT推論を高速化するトークンレベルの信頼度に基づくハイブリッドデコーディングフレームワークであるR-Stitchを提案する。
論文参考訳（メタデータ） (2025-07-23T08:14:36Z)
zip2zip: Inference-Time Adaptive Vocabularies for Language Models via Token Compression [32.01058227175771]
zip2zipは、大規模言語モデルで推論時にトークン語彙を動的に調整できるフレームワークである。パラメータ効率の良い微調整により,既存のLLMを10GPU時間でzip2zip-fiedできることを示す。結果として得られるzip2zip LLMは、推論時にハイパートークンを使用することを効果的に学習し、入力および出力シーケンスの長さを20-60%削減する。
論文参考訳（メタデータ） (2025-06-01T17:03:02Z)
L-MTP: Leap Multi-Token Prediction Beyond Adjacent Context for Large Language Models [69.1271366892683]
本稿では,革新的なトークン予測手法である跳躍マルチトークン予測(L-MTP)を提案する。従来のMTPとは異なり、L-MTPは中間トークンを戦略的にスキップし、1つのフォワードパスで非逐次トークンを予測する。理論的には,L-MTPによる推論効率の向上の利点を実証する。
論文参考訳（メタデータ） (2025-05-23T05:59:46Z)
SepLLM: Accelerate Large Language Models by Compressing One Segment into One Separator [65.62084602011596]
大規模言語モデル(LLM)は、自然言語処理タスクの範囲で例外的な性能を示した。特定の意味のないセパレータトークン(句読点)は意味的に意味のあるトークンと比較して注意点に不均等に寄与する。 SepLLMは,これらのセグメントを圧縮し,冗長なトークンを除去することによって推論を高速化する,プラグアンドプレイフレームワークである。
論文参考訳（メタデータ） (2024-12-16T18:58:57Z)
Dipper: Diversity in Prompts for Producing Large Language Model Ensembles in Reasoning tasks [39.820621967837205]
大規模言語モデルの性能を高める推論時間法は、シーケンシャルなクエリに大きく依存しているが、過去の研究で有効であることが示されている。本稿では,1つのモデルに最適化された多様なプロンプトを並列に供給する,新しい学習不要なLLMアンサンブルフレームワークを提案する。実験により,本手法が算数推論タスク,例えばMATHにおいて有意な向上をもたらすことを実証した。
論文参考訳（メタデータ） (2024-12-12T17:49:05Z)
RefreshKV: Updating Small KV Cache During Long-form Generation [54.00118604124301]
生成中の入力トークンのサブセットに対して、完全なコンテキストアテンションとアテンションを柔軟に交互に交互に切り替える新しい推論手法RefreshKVを提案する。本手法をオフザシェルフ LLM に適用することにより,様々な長文生成タスクの性能を向上しつつ,エビクションベースの手法に匹敵する高速化を実現する。
論文参考訳（メタデータ） (2024-11-08T18:57:07Z)
Expediting and Elevating Large Language Model Reasoning via Hidden Chain-of-Thought Decoding [14.175444025026508]
大規模言語モデル(LLM)は、チェーン・オブ・シント(CoT)のプロンプトを必要とするタスクにおいて顕著な機能を示した。完全なCoTプロセスを生成すると、出力シーケンスが大幅に長くなり、推論時の計算コストと遅延が増大する。セマンティックアライメントによってCoTプロセスを圧縮し、CoT推論の利点を保ちながらより効率的な復号化を可能にする新しい手法を提案する。
論文参考訳（メタデータ） (2024-09-13T06:29:20Z)
SLiCK: Exploiting Subsequences for Length-Constrained Keyword Spotting [5.697227044927832]
キーワードは最大キーワード長でバウンドされることが多いが、これは以前の作品ではほとんど上回っていない。本稿では,より粒度の細かい音声テキスト関係を学習するためのサブシーケンスレベルのマッチング方式を提案する。提案手法は、ハードデータセットのベースライン結果を改善し、AUCを88.52ドルから94.9ドルに引き上げ、EERを18.82ドルから11.1ドルに下げる。
論文参考訳（メタデータ） (2024-09-06T01:08:29Z)
SentenceVAE: Enable Next-sentence Prediction for Large Language Models with Faster Speed, Higher Accuracy and Longer Context [49.9628075245959]
本稿では,文中の複数のトークンを1つのトークンに圧縮する文を含む文変分自動エンコーダ(文変分自動エンコーダ)と,それを再構成する文変分自動エンコーダ(文変分自動エンコーダ)を提案する。提案手法は, 推定速度を204365%高速化し, パープレキシティ(PPL)を4675%まで低減し, メモリオーバーヘッドを8691%削減する。
論文参考訳（メタデータ） (2024-08-01T15:45:19Z)
Unlocking Tokens as Data Points for Generalization Bounds on Larger Language Models [79.70436109672599]
LLaMA2-70Bほどの大きさの大規模言語モデルの非空一般化境界を導出する。我々の研究は、実際にデプロイされ、高品質なテキストを生成するモデルに対する最初の非空き境界を達成する。
論文参考訳（メタデータ） (2024-07-25T16:13:58Z)
Optimized Multi-Token Joint Decoding with Auxiliary Model for LLM Inference [41.93955876156331]
大規模言語モデル(LLM)は様々なタスクで顕著な成功を収めた。推論プロセスは、デコードの各ステップにおける単一トーケン生成により、相当な時間とエネルギー要求によって妨げられる。 MTJD を高速化する新しいフレームワークである Multi-token Assisted Decoding (MTAD) を導入する。
論文参考訳（メタデータ） (2024-07-12T23:29:54Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
MADTP: Multimodal Alignment-Guided Dynamic Token Pruning for Accelerating Vision-Language Transformer [66.71930982549028]
VLT(Vision-Language Transformer)は近年大きな成功を収めている。各種VLTの高速化を目的としたマルチモーダルアライメント誘導動的トーケンプルーニング(MADTP)という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-05T14:13:50Z)
Efficient Long-Range Transformers: You Need to Attend More, but Not Necessarily at Every Layer [36.75562615596186]
我々は、Mixed Attention Spansを用いた実装が容易な変圧器であるMASFormerを提案する。 MASFormerは、長距離依存関係をキャプチャするために完全に注意を払っているが、少数の層しか持たない。実験の結果,1.3BパラメータのデコーダのみのMASFormerモデルは,バニラ変圧器との競合性能を十分に発揮できることがわかった。
論文参考訳（メタデータ） (2023-10-19T03:32:05Z)
LongNet: Scaling Transformers to 1,000,000,000 Tokens [146.4077038371075]
LongNetはTransformerの変種で、シーケンス長を10億以上のトークンに拡張できる。我々の研究は、例えば、コーパス全体やインターネット全体をシーケンスとして扱うなど、非常に長いシーケンスをモデリングする新たな可能性を開く。
論文参考訳（メタデータ） (2023-07-05T17:59:38Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。