論文の概要: Hymba: A Hybrid-head Architecture for Small Language Models
- arxiv url: http://arxiv.org/abs/2411.13676v1
- Date: Wed, 20 Nov 2024 19:51:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:20:49.549134
- Title: Hymba: A Hybrid-head Architecture for Small Language Models
- Title(参考訳): Hymba: 小型言語モデルのためのハイブリッドヘッドアーキテクチャ
- Authors: Xin Dong, Yonggan Fu, Shizhe Diao, Wonmin Byeon, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Shih-Yang Liu, Matthijs Van Keirsbilck, Min-Hung Chen, Yoshi Suhara, Yingyan Lin, Jan Kautz, Pavlo Molchanov,
- Abstract要約: Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。
重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。
このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
- 参考スコア(独自算出の注目度): 65.94140459055244
- License:
- Abstract: We propose Hymba, a family of small language models featuring a hybrid-head parallel architecture that integrates transformer attention mechanisms with state space models (SSMs) for enhanced efficiency. Attention heads provide high-resolution recall, while SSM heads enable efficient context summarization. Additionally, we introduce learnable meta tokens that are prepended to prompts, storing critical information and alleviating the "forced-to-attend" burden associated with attention mechanisms. This model is further optimized by incorporating cross-layer key-value (KV) sharing and partial sliding window attention, resulting in a compact cache size. During development, we conducted a controlled study comparing various architectures under identical settings and observed significant advantages of our proposed architecture. Notably, Hymba achieves state-of-the-art results for small LMs: Our Hymba-1.5B-Base model surpasses all sub-2B public models in performance and even outperforms Llama-3.2-3B with 1.32% higher average accuracy, an 11.67x cache size reduction, and 3.49x throughput.
- Abstract(参考訳): 我々は,トランスフォーマーアテンション機構と状態空間モデル(SSM)を統合して効率を向上させるハイブリッドヘッド並列アーキテクチャを特徴とする,小型言語モデルのファミリーであるHymbaを提案する。
アテンションヘッドは高精細なリコールを提供するが、SSMヘッドは効率的なコンテキスト要約を可能にする。
さらに,学習可能なメタトークンを導入し,重要な情報を保存し,注意機構に関連する「強制的・強制的」負担を軽減する。
このモデルは、層間鍵値(KV)共有と部分的スライディングウィンドウアテンションを組み込むことにより、キャッシュサイズを小さくすることで、さらに最適化されている。
開発期間中に,各アーキテクチャを同一設定で比較し,提案アーキテクチャの顕著な優位性について検討した。
私たちのHymba-1.5B-Baseモデルは、パフォーマンスにおいてすべてのサブ2Bのパブリックモデルを超え、Llama-3.2-3Bよりも1.32%高い平均精度、11.67倍のキャッシュサイズ、および3.49倍のスループットで性能を上げています。
関連論文リスト
- Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models [75.58140912100318]
本稿では,DiffQKV の注目を含む新しいアーキテクチャを応用した,システムドメインに特化した効率的な大規模言語モデルを提案する。
我々は、モデルがK成分とV成分の圧縮に対して様々な感度を持つことを示す実験を行い、微分圧縮KVの開発に繋がる。
我々は最初の総合ベンチマークであるAIMiciusを紹介し、Sigmaはすべてのタスクで顕著なパフォーマンスを示し、52.5%の絶対的な改善でGPT-4を著しく上回った。
論文 参考訳(メタデータ) (2025-01-23T12:58:14Z) - CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [53.539020807256904]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。
トークン化方式は、チャネルごとのパッチで脳波信号を表現します。
本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文 参考訳(メタデータ) (2025-01-18T21:44:38Z) - HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。
本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。
この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文 参考訳(メタデータ) (2024-07-02T09:51:56Z) - Imp: Highly Capable Large Multimodal Models for Mobile Devices [19.328141787433704]
大規模言語モデル(LLM)は、オープンワールドのマルチモーダル理解において顕著な汎用性を示している。
それらは通常パラメータ重で計算集約的であり、リソース制約のあるシナリオにおける適用性を妨げます。
本稿では,モデルアーキテクチャ,トレーニング戦略,トレーニングデータの観点から,軽量LMMの体系的研究を行う。
その結果,2B-4Bスケールで高い能力を有するLMMのファミリーであるImpが得られた。
論文 参考訳(メタデータ) (2024-05-20T15:23:19Z) - Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based
Tumor Classification [5.121989578393729]
全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。
粗粒度のラベルは容易にアクセスでき、WSI分類がマルチインスタンス学習(MIL)の理想的なユースケースとなる。
埋め込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
論文 参考訳(メタデータ) (2023-07-14T17:06:49Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - CascadER: Cross-Modal Cascading for Knowledge Graph Link Prediction [22.96768147978534]
本稿では,効率を向上しつつ,完全アンサンブルのランキング精度を維持するための階層型ランキングアーキテクチャCascaderを提案する。
CascadER は LM を用いて、より効率的な KGE の出力を再現し、KGE の精度向上を最大化しつつ、LM を最小限に呼び出すための適応的なサブセット選択方式に依存している。
実験により, モデル間の多様性と個々のモデルの信頼性信号の保存がカスケーダの有効性を説明するのに有効であることがわかった。
論文 参考訳(メタデータ) (2022-05-16T22:55:45Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。