論文の概要: Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
- arxiv url: http://arxiv.org/abs/2408.12570v1
- Date: Thu, 22 Aug 2024 17:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:02:30.265414
- Title: Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
- Title(参考訳): Jamba-1.5: スケールでのハイブリッドトランス-マンバモデル
- Authors: Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham,
- Abstract要約: 提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。
94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。
どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
- 参考スコア(独自算出の注目度): 30.893146392880773
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source.
- Abstract(参考訳): 提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。
Jambaは、専門家アーキテクチャのハイブリッドなTransformer-Mambaミックスであり、高いスループットとコンテキスト長でのメモリ使用量を提供し、Transformerモデルと同じまたはより良い品質を維持している。
94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。
どちらのモデルも様々な対話型および命令追従型能力のために微調整されており、オープンウェイトモデルの中で最大の256Kトークンの有効コンテキスト長を持つ。
コスト効率のよい推論を支援するために、我々は、256Kのコンテキストを品質を損なわずに処理する際に、880GBのGPUを持つマシンにJamba-1.5-Largeを装着できる新しい量子化技術であるExpertsInt8を紹介した。
学術ベンチマークとチャットボットベンチマークのバッテリで評価すると、Jamba-1.5モデルは高いスループットを提供し、ロングコンテキストベンチマークで他のオープンウェイトモデルよりも優れた結果が得られる。
両方のサイズのモデルウェイトは、Jamba Open Model Licenseの下で公開されており、ExpertsInt8をオープンソースとしてリリースしています。
関連論文リスト
- An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Zamba: A Compact 7B SSM Hybrid Model [10.973515151563424]
Zambaは7B SSMトランスフォーマーハイブリッドモデルである。
Zambaは、公開データセットから1Tトークンをトレーニングする。
Zambaは、同等のトランスフォーマーモデルよりも推論がかなり速い。
論文 参考訳(メタデータ) (2024-05-26T22:23:02Z) - TRAMBA: A Hybrid Transformer and Mamba Architecture for Practical Audio and Bone Conduction Speech Super Resolution and Enhancement on Mobile and Wearable Platforms [1.4636344990713703]
音響・骨伝導音声強調のためのハイブリッドトランスであるTRAMBAとMambaアーキテクチャを提案する。
TRAMBAは、データサンプリングや送信を少なくすることで、ウェアラブルのバッテリ寿命を最大160%改善することを示す。
論文 参考訳(メタデータ) (2024-05-02T12:45:48Z) - Jamba: A Hybrid Transformer-Mamba Language Model [36.52024214648527]
本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。
JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
論文 参考訳(メタデータ) (2024-03-28T23:55:06Z) - MatFormer: Nested Transformer for Elastic Inference [94.1789252941718]
MatFormerは、様々なデプロイメント制約で弾力性を提供するように設計されたネストトランスフォーマーアーキテクチャである。
2.6BデコーダのみのMatFormer言語モデル(MatLM)は1.5Bから2.6Bまでの小さなモデルを抽出できることを示す。
また,MatFormerベースのViT(MatViT)エンコーダから抽出した小さなエンコーダは,適応的な大規模検索のための距離空間構造を保持する。
論文 参考訳(メタデータ) (2023-10-11T17:57:14Z) - Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models [47.99478573698432]
コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
論文 参考訳(メタデータ) (2023-03-15T03:21:38Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。