Fugu-MT 論文翻訳(概要): Byte Latent Transformer: Patches Scale Better Than Tokens

論文の概要: Byte Latent Transformer: Patches Scale Better Than Tokens

arxiv url: http://arxiv.org/abs/2412.09871v1
Date: Fri, 13 Dec 2024 05:33:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-16 15:37:48.850691
Title: Byte Latent Transformer: Patches Scale Better Than Tokens
Title（参考訳）: Byte Latent Transformer: トーケンよりスケールが良い
Authors: Artidoro Pagnoni, Ram Pasunuru, Pedro Rodriguez, John Nguyen, Benjamin Muller, Margaret Li, Chunting Zhou, Lili Yu, Jason Weston, Luke Zettlemoyer, Gargi Ghosh, Mike Lewis, Ari Holtzman, Srinivasan Iyer,
Abstract要約: Byte Latent Transformer (BLT) はバイトを動的サイズのパッチにエンコードする。固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。
参考スコア（独自算出の注目度）: 101.10994909832063
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce the Byte Latent Transformer (BLT), a new byte-level LLM architecture that, for the first time, matches tokenization-based LLM performance at scale with significant improvements in inference efficiency and robustness. BLT encodes bytes into dynamically sized patches, which serve as the primary units of computation. Patches are segmented based on the entropy of the next byte, allocating more compute and model capacity where increased data complexity demands it. We present the first FLOP controlled scaling study of byte-level models up to 8B parameters and 4T training bytes. Our results demonstrate the feasibility of scaling models trained on raw bytes without a fixed vocabulary. Both training and inference efficiency improve due to dynamically selecting long patches when data is predictable, along with qualitative improvements on reasoning and long tail generalization. Overall, for fixed inference costs, BLT shows significantly better scaling than tokenization-based models, by simultaneously growing both patch and model size.
Abstract（参考訳）: 我々は,新しいバイトレベルのLLMアーキテクチャであるByte Latent Transformer (BLT)を導入し,トークン化に基づくLLM性能を大規模にマッチングし,推論効率とロバスト性を大幅に向上させた。 BLTはバイトを動的サイズのパッチにエンコードし、計算の主単位として機能する。パッチは次のバイトのエントロピーに基づいてセグメンテーションされ、より多くの計算とデータ複雑性が要求されるモデルキャパシティが割り当てられる。最大8Bパラメータと4TトレーニングバイトまでのバイトレベルのモデルのFLOP制御による最初のスケーリング研究を示す。本結果は,固定語彙を伴わない生のバイトで学習したスケーリングモデルの実現可能性を示した。トレーニングと推論の効率は、データが予測可能なときに、動的に長いパッチを選択し、推論とロングテールの一般化の質的改善によって改善される。全体として、固定推論コストに対して、BLTはパッチとモデルサイズの両方を同時に拡大することにより、トークン化ベースのモデルよりもはるかに優れたスケーリングを示している。

関連論文リスト

Dynamic Chunking for End-to-End Hierarchical Sequence Modeling [17.277753030570263]
本稿では,コンテンツとコンテキストに依存したセグメンテーション戦略を自動的に学習する動的チャンキング機構を実現する手法を提案する。これを明示的な階層ネットワーク(H-Net)に組み込むことで、(単純に階層的な)トークン化-LM-detokenizationパイプラインを、完全にエンドツーエンドに学習した単一のモデルに置き換えることができる。階層を複数のステージに反復すると、複数の抽象化レベルをモデル化することで、そのパフォーマンスがさらに向上する。英語で事前訓練されたH-Netは、文字レベルの堅牢性を大幅に向上させ、意味のあるデータ依存のチャンキング戦略を、明確な監督なしに質的に学習する。
論文参考訳（メタデータ） (2025-07-10T17:39:37Z)
Scalable Complexity Control Facilitates Reasoning Ability of LLMs [41.607173110806265]
モデル複雑性制御は、様々なモデルサイズとデータサイズに対して、大言語モデルのスケーリング法則を一貫して改善できることを示す。以上の結果から,LLMの継続的な進歩には,複雑性制御が期待できる方向であることが示唆された。
論文参考訳（メタデータ） (2025-05-29T02:42:20Z)
Parameter-Efficient Transformer Embeddings [0.0]
本稿では,トークンの埋め込みベクトルをトークンIDから直接決定的に生成する手法を提案する。自然言語推論タスクで標準トランスフォーマーとアーキテクチャをトレーニングします。提案手法は, パラメータをはるかに少なくし, 高速かつ効果的に動作し, ドロップアウトを必要とせずに性能を向上することを示した。
論文参考訳（メタデータ） (2025-05-04T21:47:18Z)
Sliding Window Attention Training for Efficient Large Language Models [55.56483740523027]
SWATを導入し,スライディングウインドウ・アテンション・トレーニング(Sliding Window Attention Training)により,より効率的な長文処理を実現する。本稿では,まず,変圧器の非効率性について,ソフトマックス動作のばらつきから生じる注意シンク現象を考察する。実験により、SWATは8つのベンチマーク上での最先端の線形リカレントアーキテクチャと比較してSOTA性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-26T05:31:44Z)
Scalable Language Models with Posterior Inference of Latent Thought Vectors [52.63299874322121]
Latent-Thought Language Models (LTM) には、潜在空間における明示的な事前モデルに従う明示的な潜在思考ベクトルが含まれている。 LTMは従来のLLMを超える拡張次元を持ち、構造化された設計空間を提供する。 LTMは従来の自己回帰モデルや離散拡散モデルよりも、検証の難易度やゼロショット言語モデリングにおいて著しく優れている。
論文参考訳（メタデータ） (2025-02-03T17:50:34Z)
Transformer Layer Injection: A Novel Approach for Efficient Upscaling of Large Language Models [0.0]
Transformer Layer Injection (TLI)は、大規模言語モデル(LLM)を効率的にスケールアップする新しい手法である。提案手法は, 各K層に新しい層を注入することにより, 従来の深層アップスケーリング(DUS)技術を改善する。
論文参考訳（メタデータ） (2024-10-15T14:41:44Z)
ReTok: Replacing Tokenizer to Enhance Representation Efficiency in Large Language Model [9.1108256816605]
大規模言語モデル(LLM)のトークン化機能を置き換えることにより,モデル表現と処理効率を向上させる手法を提案する。本手法は,トークン化器を置き換えたモデルの性能を維持しつつ,長文の復号速度を大幅に向上させる。
論文参考訳（メタデータ） (2024-10-06T03:01:07Z)
Investigating Low-Rank Training in Transformer Language Models: Efficiency and Scaling Analysis [16.253898272659242]
本研究では,トランスフォーマーを用いたLDM,特に低ランクパラメトリゼーションをフィードフォワードネットワーク(FFN)に適用することに焦点を当てた。大規模なRefinedWebデータセットの実験では、低ランクのパラメトリゼーションが効率的(例:2.6$times$ FFNのスピードアップと32%のパラメータ)であり、トレーニング中に効果的であることが示されている。この発見に感化されて、我々は現在の中規模および大規模トランスを超越した広帯域かつ構造化されたネットワークを、パープレキシティとスループット性能で開発する。
論文参考訳（メタデータ） (2024-07-13T10:08:55Z)
Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。本研究は,計算集約型フィードフォワードネットワーク(FFN)を対象とするトランスフォーマーベースLLMに着目した。広範かつ構造化されたネットワークは、最適なトレードオフにおいて、パラメータが少なく、高密度モデルよりも損失が少ないFLOPをより効率的に活用できることを示す。
論文参考訳（メタデータ） (2024-06-24T08:43:21Z)
On the Scalability of Diffusion-based Text-to-Image Generation [97.64837704129005]
拡散に基づくテキスト・ツー・イメージ(T2I)モデルのスケーリング特性について検討する。モデルスケーリングでは、既存のUNet設計の性能を区別して、クロスアテンションの位置と量を求める。データスケーリングの面では、単にデータセットのサイズではなく、トレーニングセットの品質と多様性が重要です。
論文参考訳（メタデータ） (2024-04-03T17:34:28Z)
SPT: Fine-Tuning Transformer-based Language Models Efficiently with Sparsification [14.559316921646356]
下流タスクのための微調整トランスフォーマーベースのモデルには、長い実行時間と高いメモリ消費がある。本稿では,スペーサ性を導入し,トランスフォーマーベースモデルを効率的に微調整するSPTシステムを提案する。 SPTは、最適化されたベースラインを一貫して上回り、ピークメモリ消費を最大50%削減し、微調整を最大2.2倍高速化する。
論文参考訳（メタデータ） (2023-12-16T07:44:52Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-05-24T15:52:08Z)
Infor-Coef: Information Bottleneck-based Dynamic Token Downsampling for Compact and Efficient language model [0.0]
過剰なオーバーヘッドは、大きなレイテンシと計算コストにつながる。本稿では,大規模言語モデルに対するモデルアクセレーション手法を提案する。本モデルでは,BERTと比較して精度が8%未満の18倍FLOPの高速化を実現している。
論文参考訳（メタデータ） (2023-05-21T13:30:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。