Fugu-MT 論文翻訳(概要): MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from LZW Compression

論文の概要: MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from LZW Compression

arxiv url: http://arxiv.org/abs/2410.21548v2
Date: Tue, 21 Jan 2025 19:45:18 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-23 16:42:35.469877
Title: MultiTok: Variable-Length Tokenization for Efficient LLMs Adapted from LZW Compression
Title（参考訳）: マルチTok:LZW圧縮に適応した効率的なLLMのための可変長トークン化
Authors: Noel Elias, Homa Esfahanizadeh, Kaan Kale, Sriram Vishwanath, Muriel Medard,
Abstract要約: MultiTokは、ユニバーサルなLempel-Ziv-Welchデータ圧縮にインスパイアされた新しいトークン化手法である。我々は,MultiTok が BERT と GPT-2 の標準に匹敵する性能を実現していることを示す。
参考スコア（独自算出の注目度）: 5.5795785998430185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have drastically changed the prospects of AI by introducing technologies for more complex natural language processing. However, current methodologies to train such LLMs require extensive resources including but not limited to large amounts of data, expensive machinery, and lengthy training. To solve this problem, this paper proposes a new tokenization method inspired by universal Lempel-Ziv-Welch data compression that compresses repetitive phrases into multi-word tokens. With MultiTok as a new tokenizing tool, we show that language models are able to be trained notably more efficiently while offering a similar accuracy on more succinct and compressed training data. In fact, our results demonstrate that MultiTok achieves a comparable performance to the BERT and GPT-2 standards as both a stand-alone tokenizer and an add-on to existing tokenizers while also providing close to 2.5x faster training with more than 30% less training data.
Abstract（参考訳）: 大規模言語モデルは、より複雑な自然言語処理のための技術を導入することで、AIの見通しを大きく変えた。しかし、そのようなLCMを訓練するための現在の手法は、大量のデータ、高価な機械、長い訓練を含む広範囲なリソースを必要とする。そこで本研究では,反復句を複数単語のトークンに圧縮する汎用的なLempel-Ziv-Welchデータ圧縮に着想を得た新しいトークン化手法を提案する。新しいトークン化ツールとしてMultiTokを用いることで、より簡潔で圧縮されたトレーニングデータに類似した精度を提供しながら、言語モデルをより効率的にトレーニングできることが示される。実際,MultiTok は BERT と GPT-2 の標準に匹敵する性能を達成し,既存のトークン化ツールのアドオンとして提供すると同時に,トレーニングデータを30% 以上削減した 2.5 倍高速トレーニングも実現している。

関連論文リスト

Learning to Compress: Unlocking the Potential of Large Language Models for Text Representation [34.21806963402883]
大規模言語モデル(LLM)の教師なし適応のためのプレテキストタスクとして,文脈圧縮の未解決の可能性について検討する。実験により、よく設計された圧縮目的がLLMベースのテキスト表現を大幅に強化できることが示されている。コントラスト学習によるさらなる改善は、強い表現モデル(LLM2Comp)を生成する
論文参考訳（メタデータ） (2025-11-21T10:45:44Z)
Sparse Training Scheme for Multimodal LLM [26.81140959413325]
MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
論文参考訳（メタデータ） (2025-09-16T11:33:20Z)
Just Go Parallel: Improving the Multilingual Capabilities of Large Language Models [59.21082876068122]
大規模言語モデル(LLM)は、並列データに対して明示的に訓練されることなく、印象的な翻訳能力を実証している。近年の研究では、トレーニングデータに付随するバイリンガル信号が原因であることが示唆されている。多言語エンコーダベースおよびエンコーダデコーダ言語モデルの多言語能力を高めるために,並列データの有用性を最大化する様々な手法が提案されている。
論文参考訳（メタデータ） (2025-06-16T02:21:15Z)
zip2zip: Inference-Time Adaptive Tokenization via Online Compression [27.16551923444618]
zip2zipは、大規模言語モデルでコンテキスト適応トークン化を実現するための新しい方法である。パラメータ効率のよい微調整により、既存のLLMを10GPU時間でzip2zipにアップトレーニングできることが示される。結果としてLLMはテスト時間適応を行い、目に見えないコンテキストでハイパートークンを使うことを学び、入力トークンと出力トークンを15～40%削減する。
論文参考訳（メタデータ） (2025-06-01T17:03:02Z)
Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。モデル入力に直接デモ例を埋め込む。長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文参考訳（メタデータ） (2025-05-26T10:49:44Z)
DeepInsert: Early Layer Bypass for Efficient and Performant Multimodal Understanding [26.39397960987363]
本稿では,事前学習したトランスモデルに対する簡単な修正を提案する。まず最初に言語プロンプトと結合するのではなく、マルチモーダルトークンを直接中央に挿入します。その結果,本手法は,学習と推論の双方において計算コストを削減できることが示唆された。
論文参考訳（メタデータ） (2025-04-27T18:56:26Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文参考訳（メタデータ） (2025-01-31T12:23:28Z)
Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文参考訳（メタデータ） (2024-08-07T12:42:09Z)
Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文参考訳（メタデータ） (2024-07-19T16:11:15Z)
Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
Taking a Deep Breath: Enhancing Language Modeling of Large Language Models with Sentinel Tokens [21.61634020256455]
変換器をベースとした大規模言語モデル(LLM)は、長期のコンテキストをモデル化する際に性能が低下する。本研究では,LLMが深呼吸を可能とし,個々のテキストチャンクに含まれる情報を要約する簡易かつ効果的な方法を提案する。
論文参考訳（メタデータ） (2024-06-16T15:50:10Z)
Training LLMs over Neurally Compressed Text [55.11828645767342]
本稿では,高度に圧縮されたテキスト上での大規模言語モデル(LLM)の訓練について検討する。テキストをブロックに分割し,それぞれが同じビット長に圧縮する新しい圧縮手法であるEqual-Info Windowsを提案する。提案手法は, 大規模化により向上し, パープレキシティと推論速度のベンチマークにおいて, バイトレベルのベースラインをはるかに上回る, ニューラルネットワークによる効果的な学習を実演する。
論文参考訳（メタデータ） (2024-04-04T17:48:28Z)
Contextual Code Switching for Machine Translation using Language Models [1.4866655830571935]
大規模言語モデル(LLM)は近年,多種多様な言語関連タスクに多大な影響を与えている。本稿では,複数のLLMを比較した機械翻訳タスクに特化して,コード切替タスクについて広範な研究を行う。以上の結果から,LLMは特定のタスクに有望な結果をもたらすにもかかわらず,機械翻訳タスクにおける多言語大言語モデルよりも比較的少ない複雑性を持つモデルの方が優れていることが示唆された。
論文参考訳（メタデータ） (2023-12-20T16:40:33Z)
LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models [22.06402870816756]
大きな言語モデル(LLM)は、その驚くべき能力のために様々なアプリケーションに適用されている。本稿では,意味的整合性を維持するための予算制御を伴う粗大なプロンプト圧縮手法であるLLMLinguaを提案する。提案手法により,最先端性能が得られ,最大20倍圧縮が可能であり,性能損失が少ないことを示す。
論文参考訳（メタデータ） (2023-10-09T14:10:21Z)
CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文参考訳（メタデータ） (2023-09-17T23:49:10Z)
The first step is the hardest: Pitfalls of Representing and Tokenizing Temporal Data for Large Language Models [10.414206635385632]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な一般化を実証している。ウェアラブルや電子健康記録から得られたデータなど、数値データや時間データをこれらのモデルに入力する際に、顕著な障害が発生する。モバイルヘルスセンシングなどの人間中心のタスクにLLMを用いた最近の研究について論じるとともに、一般的なLLMが時間データを誤ってトークン化していることを示すケーススタディを示す。
論文参考訳（メタデータ） (2023-09-12T13:51:29Z)
Chain-of-Dictionary Prompting Elicits Translation in Large Language Models [100.47154959254937]
大規模言語モデル(LLM)は多言語ニューラルマシン翻訳(MNMT)において驚くほど優れた性能を示した入力単語のサブセットに対する多言語辞書の連鎖による事前知識でLLMを拡張して翻訳能力を引き出す新しい方法であるCoDを提案する。
論文参考訳（メタデータ） (2023-05-11T05:19:47Z)
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文参考訳（メタデータ） (2022-12-30T22:26:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。