論文の概要: The Efficiency Gap in Byte Modeling
- arxiv url: http://arxiv.org/abs/2605.12928v1
- Date: Wed, 13 May 2026 03:03:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.77711
- Title: The Efficiency Gap in Byte Modeling
- Title(参考訳): バイトモデリングにおける効率ギャップ
- Authors: Celine Lee, Jing Nathan Yan, Chen Liang, Jiaxin Shi, Yin Zhang, Jeremiah Liu, Pengcheng Yin, Fernando Pereira, Ed Chi, Derek Cheng, Alexander M. Rush, Ruoxi Wang,
- Abstract要約: 2つの代替パラダイムは、サブワードトークン化と自己回帰順序付けの使用に挑戦している。
これらの構造的先行性を取り除くことは、計算コストを著しく削減することを示します。
この結果から, 将来のモジュラリティ非依存設計は, 拡張軌道を維持するために, 代替構造バイアスを組み込まなければならないことが示唆された。
- 参考スコア(独自算出の注目度): 101.18202046105718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models have historically relied on two dominant design choices: subword tokenization and autoregressive (AR) ordering. These design decisions bake in priors that dictate a model's learning. Recently, two alternative paradigms have challenged this: byte-level modeling, which bypasses static statistically-derived token vocabularies, and masked diffusion modeling (MDM), which conducts parallel, non-sequential generation. Their intersection represents a fully end-to-end modality-agnostic generative prototype; however, removing these structural priors incurs a significant computational cost. In this work, we investigate this cost through a compute-matched scaling study. Our results reveal that the performance penalty of byte modeling is not uniform; across scale, the scaling overhead of byte modeling is worse for MDM than for AR. We hypothesize that this disparity stems from context fragility: while AR's stable causal history allows models to naturally rediscover subword patterns, the MDM objective destroys the local contiguity required to efficiently resolve semantics from raw bytes. Our findings from controlled permutation experiments suggest that future modality-agnostic designs must incorporate alternative structural biases to maintain viable scaling trajectories in the byte regime.
- Abstract(参考訳): 現代言語モデルは歴史的に、サブワードのトークン化と自動回帰(AR)順序付けという2つの主要な設計選択に依存してきた。
これらの設計決定は、モデルの学習を規定する事前決定を発生させる。
近年、静的な統計的に派生したトークン語彙をバイパスするバイトレベルモデリングと、並列な非逐次生成を行うマスク拡散モデリング(MDM)という2つのパラダイムに挑戦している。
それらの交叉は、完全なエンドツーエンドのモダリティに依存しない生成プロトタイプを表しているが、これらの構造的先行性を取り除くことは、計算コストを著しく削減する。
本研究では,このコストを計算マッチングスケーリング研究により検討する。
以上の結果から, バイトモデリングの性能ペナルティは均一ではなく, スケール的に見ると, バイトモデリングのスケーリングオーバーヘッドはARよりもMDMの方が悪いことが判明した。
ARの安定した因果履歴は、モデルが自然にサブワードパターンを再発見することを可能にするのに対して、MDMの目的は、生のバイトからのセマンティクスを効率的に解決するために必要な局所的な連続性を破壊します。
制御された置換実験から得られた知見は、将来のモジュラリティ非依存設計は、バイト状態において実行可能なスケーリング軌道を維持するために、代替構造バイアスを組み込まなければならないことを示唆している。
関連論文リスト
- On the Trainability of Masked Diffusion Language Models via Blockwise Locality [58.92209096047332]
マスク付き拡散言語モデル (MDMs) は、最近、標準自己回帰型大言語モデル (AR-LLMs) に代わる有望な代替品として登場した。
ブロックワイズMDMを解析し,AR-LLMと比較し,構造生成の異なる側面を強調する3つの制御タスクについて検討した。
標準ランダムマスキングMDMは線形回帰を確実に学習できず、グラフパスフィニングにおいて高分散トレーニングダイナミクスを示し、スドクではAR-LLMよりも優れていた。
論文 参考訳(メタデータ) (2026-04-27T17:44:26Z) - Rethinking Token Prediction: Tree-Structured Diffusion Language Model [17.568195527860155]
トークンの祖先ノードに対応する潜在状態を持つ木構造拡散言語モデルを構築した。
本手法は,最先端の離散拡散言語モデルのパープレキシティ性能に適合しながら,ピークGPUメモリ使用量を半減する。
論文 参考訳(メタデータ) (2026-04-04T01:19:12Z) - Auto-Regressive Masked Diffusion Models [9.239507801466322]
仮面拡散モデル (MDM) は言語モデリングの有望なアプローチとして登場している。
自動回帰モデル(ARM)と比較してパフォーマンスのギャップがあり、より多くのトレーニングイテレーションが必要です。
本稿では,自己回帰型マスケッド拡散モデルを提案する。これは,自己回帰型モデルのトレーニング効率と,拡散型モデルの並列生成能力を統一するものである。
論文 参考訳(メタデータ) (2026-01-23T18:42:30Z) - Latent Thought Models with Variational Bayes Inference-Time Computation [52.63299874322121]
ラテント思考モデル(LTM)は、ラテント空間における明示的な事前モデルに従う明示的なラテント思考ベクトルを包含する。
LTMは自己回帰モデルや離散拡散モデルよりも優れたサンプルおよびパラメータ効率を示す。
論文 参考訳(メタデータ) (2025-02-03T17:50:34Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。
本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。
適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文 参考訳(メタデータ) (2024-09-02T22:35:03Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Scaling Hidden Markov Language Models [118.55908381553056]
この研究は、HMMを言語モデリングデータセットに拡張するという課題を再考する。
本研究では,HMMを大規模状態空間に拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-11-09T18:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。