Fugu-MT 論文翻訳(概要): MambaByte: Token-free Selective State Space Model

論文の概要: MambaByte: Token-free Selective State Space Model

arxiv url: http://arxiv.org/abs/2401.13660v1
Date: Wed, 24 Jan 2024 18:53:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-25 13:43:51.730272
Title: MambaByte: Token-free Selective State Space Model
Title（参考訳）: mambabyte:トークンフリーの選択的状態空間モデル
Authors: Junxiong Wang, Tushaar Gangavarapu, Jing Nathan Yan, Alexander M Rush
Abstract要約: MambaByteは、Mamba状態空間モデルのトークンフリー適応である。我々は、MambaByteが最先端のサブワードトランスフォーマーと競合し、さらに上回っていることを示す。
参考スコア（独自算出の注目度）: 77.13933962001666
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.
Abstract（参考訳）: トークンフリー言語モデルは生のバイトから直接学習し、サブワードのトークン化のバイアスを取り除く。しかし、バイトを動作させるとシーケンスがかなり長くなり、標準の自己回帰トランスフォーマーはそのような設定ではスケールが悪くなります。我々は,Mamba状態空間モデルのトークンフリー適応であるMambaByteを,バイト列上で自己回帰的に訓練した。実験では,mambabyteの計算効率を他のバイト単位モデルと比較した。また、MambaByteは最先端のサブワードトランスフォーマーよりも優れています。さらに、長さの線形スケーリングのため、mambabyteはトランスフォーマーに比べて高速推論の利点がある。トークンフリーな言語モデリングを実現する上で,mambabyteが有効であることを示す。

関連論文リスト

Exploring State-Space-Model based Language Model in Music Generation [12.697065688262521]
我々は,マンバをベースとしたテキスト・音楽生成アーキテクチャの可能性を探る。我々は、もともとMambaベースのエンコーダとして設計されたSiMBAを適用し、シーケンスモデリングのためのデコーダとして機能する。以上の結果から,SiMBAは,限られた資源設定下でより高速な収束を実現し,真理に近い出力を生成することが示唆された。
論文参考訳（メタデータ） (2025-07-09T09:05:18Z)
Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。 Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文参考訳（メタデータ） (2024-11-18T18:59:15Z)
Taipan: Efficient and Expressive State Space Language Models with Selective Attention [100.16383527459429]
自然言語処理(NLP)における長文言語モデリングの課題 Mambaのような最近のステートスペースモデル(SSM)は、メモリ使用量を一定に抑える代替手段を提供するが、大規模なコンテキスト内検索を必要とするタスクでは性能が劣る。我々は,Mamba-2と選択注意層(SAL)を組み合わせた新しいハイブリッドアーキテクチャであるTaipanを紹介する。我々の実験は、様々なスケールやタスクにまたがる優れたパフォーマンスを示し、より効率的な長文言語モデリングのための有望なソリューションを提供する。
論文参考訳（メタデータ） (2024-10-24T09:25:37Z)
An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文参考訳（メタデータ） (2024-06-12T05:25:15Z)
Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling [70.94320930424331]
選択状態空間モデル(SSM)であるMambaとSliding Window Attention(SWA)を組み合わせた単純なハイブリッドアーキテクチャであるSambaを提案する。 Sambaは、特定のシーケンスを選択的にリカレントな隠蔽状態に圧縮すると同時に、アテンション機構で正確に記憶を思い出す能力を維持している。線形時間シーケンスモデルとして、Sambaは128Kの処理プロンプトでグループアテンションを持つトランスフォーマーに比べて3.73倍のスループットを保ち、無制限のストリーミングで64Kトークンを生成する場合の3.64倍のスピードアップを実現している。
論文参考訳（メタデータ） (2024-06-11T17:50:51Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)
BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。 MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文参考訳（メタデータ） (2024-02-01T07:15:58Z)
SegMamba: Long-range Sequential Modeling Mamba For 3D Medical Image Segmentation [16.476244833079182]
我々は,新しい3次元医用画像textbfSegmentation textbfMambaモデルであるSegMambaを紹介した。 SegMambaは、状態空間モデルの観点から、全ボリューム特徴モデリングに優れています。 BraTS2023データセットの実験では、SegMambaの有効性と効率が示されている。
論文参考訳（メタデータ） (2024-01-24T16:17:23Z)
Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-01T18:01:34Z)
MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文参考訳（メタデータ） (2023-05-12T00:55:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。