論文の概要: Jamba: A Hybrid Transformer-Mamba Language Model
- arxiv url: http://arxiv.org/abs/2403.19887v1
- Date: Thu, 28 Mar 2024 23:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:54:17.851550
- Title: Jamba: A Hybrid Transformer-Mamba Language Model
- Title(参考訳): Jamba: ハイブリッドトランスフォーマー-マンバ言語モデル
- Authors: Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham,
- Abstract要約: 本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。
JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
- 参考スコア(独自算出の注目度): 36.52024214648527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows resource- and objective-specific configurations. In the particular configuration we have implemented, we end up with a powerful model that fits in a single 80GB GPU. Built at large scale, Jamba provides high throughput and small memory footprint compared to vanilla Transformers, and at the same time state-of-the-art performance on standard language model benchmarks and long-context evaluations. Remarkably, the model presents strong results for up to 256K tokens context length. We study various architectural decisions, such as how to combine Transformer and Mamba layers, and how to mix experts, and show that some of them are crucial in large scale modeling. We also describe several interesting properties of these architectures which the training and evaluation of Jamba have revealed, and plan to release checkpoints from various ablation runs, to encourage further exploration of this novel architecture. We make the weights of our implementation of Jamba publicly available under a permissive license.
- Abstract(参考訳): 本稿では,新しいハイブリッドなTransformer-Mambamix-of-experts (MoE)アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。
具体的には、JambaはTransformer層とMamba層のブロックをインターリーブし、モデルファミリの両方の利点を享受する。
MoEはこれらのレイヤの一部に追加され、アクティブなパラメータ使用量を管理しながらモデルキャパシティが向上する。
この柔軟なアーキテクチャは、リソースや客観的な設定を可能にする。
実装した特定の構成では、単一の80GBのGPUに適合する強力なモデルが出来上がります。
大規模に構築されたJambaは、バニラトランスフォーマーに比べてスループットが高く、メモリフットプリントも小さい。
注目すべきは、このモデルが最大256Kトークンのコンテキスト長に対して強い結果をもたらすことだ。
本稿では,Transformer層とMamba層を組み合わせる方法,専門家を混在させる方法など,さまざまなアーキテクチャ上の決定について検討し,その一部が大規模モデリングにおいて重要であることを示す。
また、Jambaのトレーニングと評価が明らかにしたこれらのアーキテクチャのいくつかの興味深い特性について述べるとともに、この新しいアーキテクチャのさらなる探求を促進するために、様々なアブレーションランからのチェックポイントをリリースする計画について述べる。
私たちは、Jambaの実装の重みをパーミッシブライセンスの下で公開しています。
関連論文リスト
- The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Jamba-1.5: Hybrid Transformer-Mamba Models at Scale [30.893146392880773]
提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。
94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。
どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
論文 参考訳(メタデータ) (2024-08-22T17:38:59Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - JambaTalk: Speech-Driven 3D Talking Head Generation Based on Hybrid Transformer-Mamba Language Model [12.27882796952091]
本稿では,ハイブリッドトランスフォーマー・マンバモデルであるJambaを用いて3次元顔のアニメーションを作成することを目的とする。
基礎となるJambaブロックに基づいて、マルチモーダル統合による動きの多様性と速度を高めるためにJambaTalkを提案する。
論文 参考訳(メタデータ) (2024-08-03T01:38:11Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Dimba: Transformer-Mamba Diffusion Models [32.04949173308355]
本稿では,Transformer と Mamba 要素を組み合わせた独自のハイブリッドアーキテクチャを用いた新しいテキスト・画像拡散モデルである Dimba について述べる。
大規模な実験により、Dimbaは画像の品質、芸術的レンダリング、セマンティックコントロールの点でベンチマークと比較すると、同等のパフォーマンスを達成したことが示されている。
論文 参考訳(メタデータ) (2024-06-03T09:51:59Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。