論文の概要: Jamba: A Hybrid Transformer-Mamba Language Model
- arxiv url: http://arxiv.org/abs/2403.19887v2
- Date: Wed, 3 Jul 2024 14:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 19:44:31.450826
- Title: Jamba: A Hybrid Transformer-Mamba Language Model
- Title(参考訳): Jamba: ハイブリッドトランスフォーマー-マンバ言語モデル
- Authors: Opher Lieber, Barak Lenz, Hofit Bata, Gal Cohen, Jhonathan Osin, Itay Dalmedigos, Erez Safahi, Shaked Meirom, Yonatan Belinkov, Shai Shalev-Shwartz, Omri Abend, Raz Alon, Tomer Asida, Amir Bergman, Roman Glozman, Michael Gokhman, Avashalom Manevich, Nir Ratner, Noam Rozen, Erez Shwartz, Mor Zusman, Yoav Shoham,
- Abstract要約: 本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。
JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
- 参考スコア(独自算出の注目度): 36.52024214648527
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Jamba, a new base large language model based on a novel hybrid Transformer-Mamba mixture-of-experts (MoE) architecture. Specifically, Jamba interleaves blocks of Transformer and Mamba layers, enjoying the benefits of both model families. MoE is added in some of these layers to increase model capacity while keeping active parameter usage manageable. This flexible architecture allows resource- and objective-specific configurations. In the particular configuration we have implemented, we end up with a powerful model that fits in a single 80GB GPU. Built at large scale, Jamba provides high throughput and small memory footprint compared to vanilla Transformers, and at the same time state-of-the-art performance on standard language model benchmarks and long-context evaluations. Remarkably, the model presents strong results for up to 256K tokens context length. We study various architectural decisions, such as how to combine Transformer and Mamba layers, and how to mix experts, and show that some of them are crucial in large scale modeling. We also describe several interesting properties of these architectures which the training and evaluation of Jamba have revealed, and plan to release checkpoints from various ablation runs, to encourage further exploration of this novel architecture. We make the weights of our implementation of Jamba publicly available under a permissive license.
- Abstract(参考訳): 本稿では,新しいハイブリッドなTransformer-Mambamix-of-experts (MoE)アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。
具体的には、JambaはTransformer層とMamba層のブロックをインターリーブし、モデルファミリの両方の利点を享受する。
MoEはこれらのレイヤの一部に追加され、アクティブなパラメータ使用量を管理しながらモデルキャパシティが向上する。
この柔軟なアーキテクチャは、リソースや客観的な設定を可能にする。
実装した特定の構成では、単一の80GBのGPUに適合する強力なモデルが出来上がります。
大規模に構築されたJambaは、バニラトランスフォーマーに比べてスループットが高く、メモリフットプリントも小さい。
注目すべきは、このモデルが最大256Kトークンのコンテキスト長に対して強い結果をもたらすことだ。
本稿では,Transformer層とMamba層を組み合わせる方法,専門家を混在させる方法など,さまざまなアーキテクチャ上の決定について検討し,その一部が大規模モデリングにおいて重要であることを示す。
また、Jambaのトレーニングと評価が明らかにしたこれらのアーキテクチャのいくつかの興味深い特性について述べるとともに、この新しいアーキテクチャのさらなる探求を促進するために、様々なアブレーションランからのチェックポイントをリリースする計画について述べる。
私たちは、Jambaの実装の重みをパーミッシブライセンスの下で公開しています。
関連論文リスト
- An Empirical Study of Mamba-based Pedestrian Attribute Recognition [15.752464463535178]
本論文は,Mambaを2つの典型的なPARフレームワーク,テキスト画像融合アプローチと純粋ビジョンMambaマルチラベル認識フレームワークに設計・適応する。
属性タグを追加入力として操作することは、必ずしも改善につながるとは限らない。具体的には、Vimを拡張できるが、VMambaではできない。
これらの実験結果は、単にTransformerでMambaを拡張すれば、パフォーマンスが向上するだけでなく、特定の設定でより良い結果が得られることを示している。
論文 参考訳(メタデータ) (2024-07-15T00:48:06Z) - MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。
私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。
視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文 参考訳(メタデータ) (2024-07-10T23:02:45Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Dimba: Transformer-Mamba Diffusion Models [32.04949173308355]
本稿では,Transformer と Mamba 要素を組み合わせた独自のハイブリッドアーキテクチャを用いた新しいテキスト・画像拡散モデルである Dimba について述べる。
大規模な実験により、Dimbaは画像の品質、芸術的レンダリング、セマンティックコントロールの点でベンチマークと比較すると、同等のパフォーマンスを達成したことが示されている。
論文 参考訳(メタデータ) (2024-06-03T09:51:59Z) - SPMamba: State-space model is all you need in speech separation [6.590157910988076]
状態空間モデルを用いた音声分離のためのネットワークアーキテクチャを提案する。
我々はTF-GridNetモデルを基本フレームワークとして採用し、Transformerコンポーネントを双方向のMambaモジュールで置き換える。
実験の結果,マンバモデルの性能面において重要な役割を担っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-04-02T16:04:31Z) - BlackMamba: Mixture of Experts for State-Space Models [10.209192169793772]
状態空間モデル(SSM)は、最近、大規模な言語モデリングベンチマークでトランスフォーマーと競合する性能を示した。
MoEモデルは、計算コストと遅延コストを大幅に削減しながら、顕著なパフォーマンスを示している。
我々は,Mamba SSMとMoEを組み合わせた新しいアーキテクチャであるBlackMambaを紹介した。
論文 参考訳(メタデータ) (2024-02-01T07:15:58Z) - Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models [47.99478573698432]
コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
論文 参考訳(メタデータ) (2023-03-15T03:21:38Z) - What Language Model to Train if You Have One Million GPU Hours? [54.32062236748831]
モデリングの実践の違いがゼロショット一般化に与える影響について検討する。
また、多言語モデルの性能と、英語のみとの比較についても検討する。
私たちのモデルとコードは、https://huggingface.co/bigscience.comでオープンソース化されています。
論文 参考訳(メタデータ) (2022-10-27T13:43:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。