論文の概要: Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
- arxiv url: http://arxiv.org/abs/2408.12570v1
- Date: Thu, 22 Aug 2024 17:38:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:02:30.265414
- Title: Jamba-1.5: Hybrid Transformer-Mamba Models at Scale
- Title(参考訳): Jamba-1.5: スケールでのハイブリッドトランス-マンバモデル
- Authors: Jamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham,
- Abstract要約: 提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。
94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。
どちらのモデルも様々な対話型および命令追従型キャパビリティのために微調整されており、有効コンテキスト長は256Kである。
- 参考スコア(独自算出の注目度): 30.893146392880773
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present Jamba-1.5, new instruction-tuned large language models based on our Jamba architecture. Jamba is a hybrid Transformer-Mamba mixture of experts architecture, providing high throughput and low memory usage across context lengths, while retaining the same or better quality as Transformer models. We release two model sizes: Jamba-1.5-Large, with 94B active parameters, and Jamba-1.5-Mini, with 12B active parameters. Both models are fine-tuned for a variety of conversational and instruction-following capabilties, and have an effective context length of 256K tokens, the largest amongst open-weight models. To support cost-effective inference, we introduce ExpertsInt8, a novel quantization technique that allows fitting Jamba-1.5-Large on a machine with 8 80GB GPUs when processing 256K-token contexts without loss of quality. When evaluated on a battery of academic and chatbot benchmarks, Jamba-1.5 models achieve excellent results while providing high throughput and outperforming other open-weight models on long-context benchmarks. The model weights for both sizes are publicly available under the Jamba Open Model License and we release ExpertsInt8 as open source.
- Abstract(参考訳): 提案するJamba-1.5は,Jambaアーキテクチャに基づく命令調整型大規模言語モデルである。
Jambaは、専門家アーキテクチャのハイブリッドなTransformer-Mambaミックスであり、高いスループットとコンテキスト長でのメモリ使用量を提供し、Transformerモデルと同じまたはより良い品質を維持している。
94Bのアクティブパラメータを持つJamba-1.5-Largeと12Bのアクティブパラメータを持つJamba-1.5-Miniの2つのモデルサイズをリリースする。
どちらのモデルも様々な対話型および命令追従型能力のために微調整されており、オープンウェイトモデルの中で最大の256Kトークンの有効コンテキスト長を持つ。
コスト効率のよい推論を支援するために、我々は、256Kのコンテキストを品質を損なわずに処理する際に、880GBのGPUを持つマシンにJamba-1.5-Largeを装着できる新しい量子化技術であるExpertsInt8を紹介した。
学術ベンチマークとチャットボットベンチマークのバッテリで評価すると、Jamba-1.5モデルは高いスループットを提供し、ロングコンテキストベンチマークで他のオープンウェイトモデルよりも優れた結果が得られる。
両方のサイズのモデルウェイトは、Jamba Open Model Licenseの下で公開されており、ExpertsInt8をオープンソースとしてリリースしています。
関連論文リスト
- The Zamba2 Suite: Technical Report [9.766119150620916]
Zamba2は1.2B、2.7B、7.4BパラメータハイブリッドのMamba2変換器である。
それは彼らのクラスの主要なオープンウェイトモデルに対して、アートパフォーマンスの状態を達成します。
論文 参考訳(メタデータ) (2024-11-22T02:55:20Z) - MatMamba: A Matryoshka State Space Model [24.85566171753877]
MatMambaはMatryoshkaスタイルの学習とMamba2を組み合わせた状態空間モデルである。
MatMambaは、様々なモデルサイズにまたがる効率的で適応的なデプロイメントを可能にする。
言語モデルと画像モデルは,35Mから1.4Bまでのパラメータサイズで訓練する。
論文 参考訳(メタデータ) (2024-10-09T09:41:34Z) - The Mamba in the Llama: Distilling and Accelerating Hybrid Models [76.64055251296548]
注目層からの線形射影重みを学術的なGPU資源で再利用することにより,大規模な変換器を線形RNNに蒸留することが可能であることを示す。
その結果、注意層を4分の1含むハイブリッドモデルは、チャットベンチマークのオリジナルのTransformerに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-27T17:56:11Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - JambaTalk: Speech-Driven 3D Talking Head Generation Based on Hybrid Transformer-Mamba Language Model [12.27882796952091]
本稿では,ハイブリッドトランスフォーマー・マンバモデルであるJambaを用いて3次元顔のアニメーションを作成することを目的とする。
基礎となるJambaブロックに基づいて、マルチモーダル統合による動きの多様性と速度を高めるためにJambaTalkを提案する。
論文 参考訳(メタデータ) (2024-08-03T01:38:11Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Jamba: A Hybrid Transformer-Mamba Language Model [36.52024214648527]
本稿では,新しいハイブリッドなTransformer-Mamba混在型アーキテクチャに基づく,新しいベースとなる大規模言語モデルであるJambaを紹介する。
JambaはTransformer層とMamba層のブロックをインターリーブし、両方のモデルファミリーの利点を享受する。
論文 参考訳(メタデータ) (2024-03-28T23:55:06Z) - Sharing Low Rank Conformer Weights for Tiny Always-On Ambient Speech
Recognition Models [47.99478573698432]
コンフォーマーに基づく音声認識モデルのモデルサイズを削減する手法を検討する。
このようなモデルにより、低メモリのニューラルプロセッサを持つエッジデバイス上で、常時オンの環境音声認識を実現することができる。
論文 参考訳(メタデータ) (2023-03-15T03:21:38Z) - Real-Time Execution of Large-scale Language Models on Mobile [49.32610509282623]
BERTの最良のモデル構造は,特定のデバイスに適合する計算サイズである。
我々のフレームワークは、モバイルデバイスのリソース仕様とリアルタイム仕様の両方を満たすための特定モデルを保証することができる。
具体的には、当社のモデルはCPUでは5.2倍、GPUでは4.1倍、BERTベースでは0.5-2%の精度損失がある。
論文 参考訳(メタデータ) (2020-09-15T01:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。