論文の概要: Bolmo: Byteifying the Next Generation of Language Models
- arxiv url: http://arxiv.org/abs/2512.15586v1
- Date: Wed, 17 Dec 2025 16:46:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.063468
- Title: Bolmo: Byteifying the Next Generation of Language Models
- Title(参考訳): Bolmo: 次世代の言語モデルを簡単にする
- Authors: Benjamin Minixhofer, Tyler Murray, Tomasz Limisiewicz, Anna Korhonen, Luke Zettlemoyer, Noah A. Smith, Edoardo M. Ponti, Luca Soldaini, Valentin Hofmann,
- Abstract要約: 競合する完全オープンなバイトレベル言語モデル(LM)の最初のファミリーであるBolmoを紹介します。
バイト化はサブワードトークン化の限界を克服する。
我々はBolmoがサブワードレベルのLMと競合する推論速度を実現できることを示す。
- 参考スコア(独自算出の注目度): 115.32940292418463
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Bolmo, the first family of competitive fully open byte-level language models (LMs) at the 1B and 7B parameter scales. In contrast to prior research on byte-level LMs, which focuses predominantly on training from scratch, we train Bolmo by byteifying existing subword-level LMs. Byteification enables overcoming the limitations of subword tokenization - such as insufficient character understanding and efficiency constraints due to the fixed subword vocabulary - while performing at the level of leading subword-level LMs. Bolmo is specifically designed for byteification: our architecture resolves a mismatch between the expressivity of prior byte-level architectures and subword-level LMs, which makes it possible to employ an effective exact distillation objective between Bolmo and the source subword model. This allows for converting a subword-level LM to a byte-level LM by investing less than 1\% of a typical pretraining token budget. Bolmo substantially outperforms all prior byte-level LMs of comparable size, and outperforms the source subword-level LMs on character understanding and, in some cases, coding, while coming close to matching the original LMs' performance on other tasks. Furthermore, we show that Bolmo can achieve inference speeds competitive with subword-level LMs by training with higher token compression ratios, and can be cheaply and effectively post-trained by leveraging the existing ecosystem around the source subword-level LM. Our results finally make byte-level LMs a practical choice competitive with subword-level LMs across a wide set of use cases.
- Abstract(参考訳): 1B と 7B のパラメータスケールで完全にオープンなバイトレベル言語モデル (LM) の最初のファミリーである Bolmo を紹介する。
主にゼロからトレーニングすることに焦点を当てたバイトレベルのLMに関する以前の研究とは対照的に、既存のサブワードレベルのLMをバイト化することによってボルモを訓練する。
バイト化は、固定されたサブワード語彙による文字理解の不足や効率の制約など、サブワードトークン化の制限を克服し、主要なサブワードレベルのLMのレベルで実行することを可能にする。
我々のアーキテクチャは、事前のバイトレベルのアーキテクチャとサブワードレベルのLMの表現率のミスマッチを解決し、ボルモとソースのサブワードモデルとの効果的な正確な蒸留の目的を実現できる。
これにより、通常の事前訓練トークン予算の1倍未満を投資することで、サブワードレベルのLMをバイトレベルのLMに変換することができる。
Bolmo は以前のバイトレベル LM よりも大幅に優れており、文字理解やコーディングにおいて、元のサブワードレベル LM よりも優れており、他のタスクでは元の LM のパフォーマンスとほぼ一致している。
さらに,Bolmoは,より高いトークン圧縮比でトレーニングすることで,サブワードレベルのLMと競合する推論速度を実現し,ソースサブワードレベルのLMを取り巻く既存のエコシステムを活用して,安価かつ効果的にポストトレーニングできることを示す。
その結果、バイトレベルのLMは、幅広いユースケースでサブワードレベルのLMと競合する実用的な選択肢となった。
関連論文リスト
- Self-Explained Keywords Empower Large Language Models for Code Generation [5.236633572296712]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
Sek(textbfSelf-textbfExplained textbfKeywords)は、LLM自体による問題記述における重要な用語を抽出し、説明する。
論文 参考訳(メタデータ) (2024-10-21T12:52:03Z) - Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
Cool-Fusionは、トレーニングを必要としないソースLLMの知識を融合させる。
さまざまなベンチマークデータセットで実験が行われた。
GSM8Kでは、Cool-Fusionは3つの強力なLLMからの精度を17.4%向上させた。
論文 参考訳(メタデータ) (2024-07-29T09:02:19Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。