論文の概要: Multiscale Byte Language Models -- A Hierarchical Architecture for Causal Million-Length Sequence Modeling
- arxiv url: http://arxiv.org/abs/2502.14553v1
- Date: Thu, 20 Feb 2025 13:31:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-21 14:30:11.287748
- Title: Multiscale Byte Language Models -- A Hierarchical Architecture for Causal Million-Length Sequence Modeling
- Title(参考訳): マルチスケールバイト言語モデル - 因果百万長シーケンスモデリングのための階層的アーキテクチャ
- Authors: Eric Egli, Matteo Manica, Jannis Born,
- Abstract要約: バイト言語モデル(BLM)はトークン化を克服するために登場したが、バイトストリームの過剰な長さは新しいアーキテクチャパラダイムを必要としている。
モデルに依存しない階層型デコーダスタックであるMultiscale Byte Language Model (MBLM)を提案する。
- 参考スコア(独自算出の注目度): 4.293921765264583
- License:
- Abstract: Bytes form the basis of the digital world and thus are a promising building block for multimodal foundation models. Recently, Byte Language Models (BLMs) have emerged to overcome tokenization, yet the excessive length of bytestreams requires new architectural paradigms. Therefore, we present the Multiscale Byte Language Model (MBLM), a model-agnostic hierarchical decoder stack that allows training with context windows of $5$M bytes on single GPU in full model precision. We thoroughly examine MBLM's performance with Transformer and Mamba blocks on both unimodal and multimodal tasks. Our experiments demonstrate that hybrid architectures are efficient in handling extremely long byte sequences during training while achieving near-linear generational efficiency. To the best of our knowledge, we present the first evaluation of BLMs on visual Q\&A tasks and find that, despite serializing images and the absence of an encoder, a MBLM with pure next token prediction can match custom CNN-LSTM architectures with designated classification heads. We show that MBLMs exhibit strong adaptability in integrating diverse data representations, including pixel and image filestream bytes, underlining their potential toward omnimodal foundation models. Source code is publicly available at: https://github.com/ai4sd/multiscale-byte-lm
- Abstract(参考訳): バイトはデジタル世界の基礎を形成するため、マルチモーダル基盤モデルのための有望なビルディングブロックである。
近年、バイト言語モデル(BLM)はトークン化を克服するために現れていますが、バイトストリームの過剰な長さには新しいアーキテクチャパラダイムが必要です。
そこで本研究では,モデルに依存しない階層型デコーダスタックであるMultiscale Byte Language Model (MBLM)を提案する。
MBLMのマルチモーダルタスクにおいて,TransformerブロックとMambaブロックを用いてMBLMの性能を徹底的に検討する。
実験により、ハイブリッドアーキテクチャは、訓練中に非常に長いバイト列を扱うのに効率的でありながら、ニア線形世代効率を実現することができることを示した。
我々の知る限り、視覚的Q\&AタスクにおけるBLMの最初の評価を行い、画像のシリアライズやエンコーダの欠如にもかかわらず、純粋に次のトークン予測を持つMBLMは、カスタムCNN-LSTMアーキテクチャと指定された分類ヘッドとを一致させることができることを示した。
MBLMは,画素や画像ファイルストリームバイトを含む多種多様なデータ表現の統合に強い適応性を示すことを示す。
ソースコードは、https://github.com/ai4sd/multiscale-byte-lmで公開されている。
関連論文リスト
- OneLLM: One Framework to Align All Modalities with Language [86.8818857465443]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - Reformulating Vision-Language Foundation Models and Datasets Towards
Universal Multimodal Assistants [65.47222691674074]
Muffinフレームワークは、事前訓練された視覚言語モデルを使用して視覚信号のプロバイダとして機能する。
UniMM-Chatデータセットはデータセットの相補性を探求し、高品質で多様なマルチモーダル命令を生成する。
論文 参考訳(メタデータ) (2023-10-01T12:35:18Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning [91.93547262073213]
近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚表現学習を支配している。
そこで,BridgeTowerを提案する。このBridgeTowerは,ユニモーダルエンコーダの上位層とクロスモーダルエンコーダの各層との間の接続を構築する複数のブリッジ層を提供する。
BridgeTowerは78.73%の精度を達成し、以前の最先端モデルであるMETERを1.09%上回った。
論文 参考訳(メタデータ) (2022-06-17T09:42:35Z) - LAVENDER: Unifying Video-Language Understanding as Masked Language
Modeling [102.42424022921243]
Masked Language Modeling (MLM) は、すべての事前学習および下流タスクの共通インターフェースとして使用される。
実験により、この統合フレームワークは14のVidLベンチマークで競合性能を達成することが示された。
論文 参考訳(メタデータ) (2022-06-14T20:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。