論文の概要: ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer
- arxiv url: http://arxiv.org/abs/2603.03583v1
- Date: Tue, 03 Mar 2026 23:20:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.121567
- Title: ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer
- Title(参考訳): ByteFlow: tokenizerなしでの適応バイトコード圧縮による言語モデリング
- Authors: Chunyuan Deng, Sanket Lokegaonkar, Colin Lockard, Besnik Fetahu, Nasser Zalmout, Xian Li,
- Abstract要約: textbfByteFlow Netは、トークン化ツールを完全に取り除く新しい階層アーキテクチャである。
ByteFlow Netは、潜在表現の符号化率に基づいて圧縮駆動セグメンテーションを実行する。
実験により、このチャンキング戦略がかなりのパフォーマンス向上をもたらすことが示されている。
- 参考スコア(独自算出の注目度): 17.871012556931067
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Modern language models still rely on fixed, pre-defined subword tokenizations. Once a tokenizer is trained, the LM can only operate at this fixed level of granularity, which often leads to brittle and counterintuitive behaviors even in otherwise strong reasoning models. We introduce \textbf{ByteFlow Net}, a new hierarchical architecture that removes tokenizers entirely and instead enables models to learn their own segmentation of raw byte streams into semantically meaningful units. ByteFlow Net performs compression-driven segmentation based on the coding rate of latent representations, yielding adaptive boundaries \emph{while preserving a static computation graph via Top-$K$ selection}. Unlike prior self-tokenizing methods that depend on brittle heuristics with human-designed inductive biases, ByteFlow Net adapts its internal representation granularity to the input itself. Experiments demonstrate that this compression-based chunking strategy yields substantial performance gains, with ByteFlow Net outperforming both BPE-based Transformers and previous byte-level architectures. These results suggest that end-to-end, tokenizer-free modeling is not only feasible but also more effective, opening a path toward more adaptive and information-grounded language models.
- Abstract(参考訳): 現代の言語モデルは、固定された定義済みのサブワードトークン化に依存している。
トークン化器が訓練されると、LMはこの一定レベルの粒度でしか動作できないため、強い推論モデルでさえも不安定で直観的でない振る舞いを引き起こす。
我々は、新しい階層型アーキテクチャである \textbf{ByteFlow Net を導入し、トークン化子を完全に取り除き、代わりにモデルが生のバイトストリームのセグメンテーションを意味論的に意味のある単位に学習できるようにする。
ByteFlow Netは、遅延表現の符号化率に基づいて圧縮駆動セグメンテーションを行い、Top-$K$ selection} を介して静的計算グラフを保存する適応境界 \emph{ While を得る。
人間の設計した帰納バイアスを持つ脆いヒューリスティックに依存する従来の自己学習法とは異なり、ByteFlow Netは内部表現の粒度を入力自身に適応させる。
この圧縮ベースのチャンキング戦略は、ByteFlow NetがBPEベースのトランスフォーマーと以前のバイトレベルのアーキテクチャの両方を上回り、大幅なパフォーマンス向上をもたらすことを示した。
これらの結果から, エンド・ツー・エンドなトークン・フリー・モデリングは, 実現可能なだけでなく, より適応的で情報基盤的な言語モデルへの道を開くことが示唆された。
関連論文リスト
- Proxy Compression for Language Modeling [58.904023114033954]
プロキシ圧縮は、圧縮された入力の効率性を維持する代替のトレーニングスキームである。
コード言語モデリングの実験では、プロキシ圧縮がトレーニング効率を大幅に向上することを示した。
モデルスケールが大きくなるにつれて、プロキシトレーニングされたモデルは最終的に一致するか、あるいは競合するトークン化アルゴリズムのアプローチになる。
論文 参考訳(メタデータ) (2026-02-04T07:36:46Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - The End of Manual Decoding: Towards Truly End-to-End Language Models [45.96704867353608]
本稿では,真の"エンドツーエンド"生成を可能にする新しいアーキテクチャであるAutoDecoを紹介する。
各ステップにおいて、コンテキスト固有の温度とトップpの値を動的に予測する軽量なヘッドで標準変換器を拡張する。
我々はAutoDecoがデフォルトのデコード戦略を著しく上回るだけでなく、オラクルで調整されたベースラインに匹敵するパフォーマンスも達成していることを示した。
論文 参考訳(メタデータ) (2025-10-30T17:01:43Z) - FLEXITOKENS: Flexible Tokenization for Evolving Language Models [9.003053181721823]
言語モデル(LM)は、単純な微調整によって新しいデータ分布に適応することが困難である。
これは、そのサブワードトークンーザの剛性のためであり、通常は適応中に変化しない。
我々は、トークン化を適応させるために、学習可能なトークン化器を備えたバイトレベルのLMを開発する。
論文 参考訳(メタデータ) (2025-07-17T01:55:41Z) - Dynamic Chunking for End-to-End Hierarchical Sequence Modeling [17.277753030570263]
本稿では,コンテンツとコンテキストに依存したセグメンテーション戦略を自動的に学習する動的チャンキング機構を実現する手法を提案する。
これを明示的な階層ネットワーク(H-Net)に組み込むことで、(単純に階層的な)トークン化-LM-detokenizationパイプラインを、完全にエンドツーエンドに学習した単一のモデルに置き換えることができる。
階層を複数のステージに反復すると、複数の抽象化レベルをモデル化することで、そのパフォーマンスがさらに向上する。
英語で事前訓練されたH-Netは、文字レベルの堅牢性を大幅に向上させ、意味のあるデータ依存のチャンキング戦略を、明確な監督なしに質的に学習する。
論文 参考訳(メタデータ) (2025-07-10T17:39:37Z) - Instruction-Following Pruning for Large Language Models [58.329978053711024]
我々は、モデルに対する固定的なプルーニングマスクを決定する従来の静的プルーニングアプローチを超えて移動する。
本手法では,プルーニングマスクは入力依存型であり,ユーザ命令に記述された情報に基づいて動的に適応する。
我々の手法は「命令追従プルーニング」と呼ばれ、ユーザ命令を入力とし、与えられたタスクに対して最も関連性の高いモデルパラメータを動的に選択するスパースマスク予測器を導入している。
論文 参考訳(メタデータ) (2025-01-03T20:19:14Z) - Byte Latent Transformer: Patches Scale Better Than Tokens [101.10994909832063]
Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。
固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
論文 参考訳(メタデータ) (2024-12-13T05:33:32Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for
Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。
本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。
本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文 参考訳(メタデータ) (2023-05-21T13:30:56Z) - SlimSeg: Slimmable Semantic Segmentation with Boundary Supervision [54.16430358203348]
本稿では,単純なスリム化可能なセマンティックセマンティックセマンティクス(SlimSeg)法を提案する。
提案するSlimSegは,様々な主流ネットワークを用いて,計算コストの動的調整と性能向上を実現するフレキシブルなモデルを生成することができることを示す。
論文 参考訳(メタデータ) (2022-07-13T14:41:05Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Towards Efficient Scene Understanding via Squeeze Reasoning [71.1139549949694]
我々はSqueeze Reasoningと呼ばれる新しいフレームワークを提案する。
空間地図上の情報を伝播するのではなく、まず入力特徴をチャネルワイドなグローバルベクトルに絞ることを学ぶ。
提案手法はエンドツーエンドのトレーニングブロックとしてモジュール化可能であり,既存のネットワークに簡単に接続可能であることを示す。
論文 参考訳(メタデータ) (2020-11-06T12:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。