論文の概要: Scratchpad Patching: Decoupling Compute from Patch Size in Byte-Level Language Models
- arxiv url: http://arxiv.org/abs/2605.09630v1
- Date: Sun, 10 May 2026 16:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.341482
- Title: Scratchpad Patching: Decoupling Compute from Patch Size in Byte-Level Language Models
- Title(参考訳): Scratchpad パッチ: バイトレベル言語モデルのパッチサイズから計算を分離する
- Authors: Lin Zheng, Vasilisa Bashlovkina, Timothy Dozat, Dan Garrette, Laura Rimell, Joshua Maynez,
- Abstract要約: Scratchpad Patching (SP)を導入し、各パッチに一貫したスクラッチパッドを挿入して、これまで見てきたバイトを集約し、その後の予測のためにパッチレベルのコンテキストを更新する。
SPは、自然言語とコードの実験で同じパッチサイズでモデル品質を改善する。
- 参考スコア(独自算出の注目度): 13.470265014002772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenizer-free language models eliminate the tokenizer step of the language modeling pipeline by operating directly on bytes; patch-based variants further aggregate contiguous byte spans into patches for efficiency. However, the average patch size chosen at the model design stage governs a tight trade-off: larger patches reduce compute and KV-cache footprint, but degrade modeling quality. We trace this trade-off to patch lag: until a patch is fully observed, byte predictions within it must rely on a stale representation from the previous patch to preserve causality; this lag widens as patches grow larger. We introduce Scratchpad Patching (SP), which inserts transient scratchpads inside each patch to aggregate the bytes seen so far and refresh patch-level context for subsequent predictions. SP triggers scratchpads using next-byte prediction entropy, selectively allocating compute to information-dense regions and enabling post-hoc adjustment of inference-time compute. Across experiments on natural language and code, SP improves model quality at the same patch size; for example, even at $16$ bytes per patch, SP-augmented models match or closely approach the byte-level baseline on downstream evaluations while using a $16\times$ smaller KV cache over patches and $3$-$4\times$ less inference compute.
- Abstract(参考訳): トークンフリーな言語モデルは、バイトを直接操作することで、言語モデリングパイプラインのトークン化ステップを排除します。
しかし、モデル設計段階で選択される平均パッチサイズは、より大きいパッチは計算量とKVキャッシュのフットプリントを減らすが、モデリング品質は低下する。
パッチが完全に観察されるまで、その中のバイト予測は、因果関係を維持するために以前のパッチからの古い表現に依存する必要があり、パッチが大きくなるにつれて、このラグは拡大する。
Scratchpad Patching (SP)を導入し、各パッチに一貫したスクラッチパッドを挿入して、これまで見てきたバイトを集約し、その後の予測のためにパッチレベルのコンテキストを更新する。
SPは、次のバイト予測エントロピーを使用してスクラッチパッドをトリガーし、計算を情報密度領域に選択的に割り当て、推論時間計算のポストホック調整を可能にする。
例えば、パッチ毎の16ドルバイトのモデルであっても、SP拡張されたモデルは、ダウンストリーム評価におけるバイトレベルのベースラインにマッチするか、あるいは密接にアプローチする。
関連論文リスト
- Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors [18.684602624559734]
SEPatch3Dは、粗いパッチ内の意味情報を保存しながら、パッチサイズを動的に調整する新しいフレームワークである。
nuScenesとArgoverse 2バリデーションセットの実験では、SEPatch3DはStreamPETRベースラインよりも最大57%高速な推論を実現し、最先端のToC3Dよりも20パーセント高速である。
論文 参考訳(メタデータ) (2026-04-16T02:46:53Z) - EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting [50.794700596484894]
IntroPE(Entropy-Guided Dynamic Patch)は,条件付きエントロピーによる遷移点を動的に検出する新しい時間情報フレームワークである。
これは、パッチの計算上の利点を維持しながら、時間構造を保存する。
長期予測ベンチマークによる実験では、EntroPEは精度と効率の両方を改善している。
論文 参考訳(メタデータ) (2025-09-30T12:09:56Z) - A Simple Linear Patch Revives Layer-Pruned Large Language Models [58.056251480151104]
大規模言語モデル(LLM)の圧縮技術として広く使われているレイヤプルーニング(Layer pruning)が登場している。
textscLinearPatchはプルーニングインターフェイスで2つの操作を1つの行列に乗算する。
パッチはメモリ効率の悪いオフライン蒸留によって5Kの未ラベルのサンプルでさらに洗練され、1つのGPUでわずか30分で95.16%に保留できる。
論文 参考訳(メタデータ) (2025-05-30T15:06:08Z) - Next Patch Prediction for Autoregressive Visual Generation [58.73461205369825]
我々はNext Token Prediction(NTP)パラダイムを新しいNext Patch Prediction(NPP)パラダイムに拡張する。
私たちのキーとなるアイデアは、画像トークンを高い情報密度のパッチトークンにグループ化して集約することです。
NPPは、画像Net 256x256生成ベンチマークにおいて、画像生成品質を最大1.0 FIDスコアで向上させながら、トレーニングコストを約0.6倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-12-19T18:59:36Z) - Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。
固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文 参考訳(メタデータ) (2024-12-13T05:33:32Z) - PaPr: Training-Free One-Step Patch Pruning with Lightweight ConvNets for Faster Inference [11.112356346406365]
PaPrは、軽量なConvNetを使用して、最小限の精度で冗長なパッチを実質的に刈り取る方法である。
FLOPカウントの低減に類似した、最先端のパッチリダクション法よりもはるかに高い精度を実現している。
論文 参考訳(メタデータ) (2024-03-24T05:50:00Z) - Learning to Embed Time Series Patches Independently [5.752266579415516]
近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。
このようなパッチをキャプチャすることは、時系列表現学習の最適戦略ではないかもしれない、と我々は主張する。
本論文では,1)他のパッチを見ることなく各パッチを自動エンコードするシンプルなパッチ再構築タスク,2)個別に各パッチを埋め込むシンプルなパッチワイド再構築タスクを提案する。
論文 参考訳(メタデータ) (2023-12-27T06:23:29Z) - FlexiViT: One Model for All Patch Sizes [100.52574011880571]
ビジョントランスフォーマーは、それらをパッチにスライスすることで、画像をシーケンスに変換する。
これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチはより高い計算コストで高い精度に繋がる。
トレーニング時にパッチサイズをランダムにすると、一組の重み付けが発生し、広範囲のパッチサイズでうまく機能することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:18:38Z) - Bag of Visual Words (BoVW) with Deep Features -- Patch Classification
Model for Limited Dataset of Breast Tumours [11.731001328350985]
Bag of Visual Words (BoVW) は機能セレクタとして使われ、CNNの機能の中でほとんどの識別機能を選択する。
パイプラインは、識別パッチを選択するためにパッチ予測の後処理を必要としないため、エンドツーエンドである。
論文 参考訳(メタデータ) (2022-02-22T07:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。