Fugu-MT 論文翻訳(概要): Hymba: A Hybrid-head Architecture for Small Language Models

論文の概要: Hymba: A Hybrid-head Architecture for Small Language Models

arxiv url: http://arxiv.org/abs/2411.13676v1
Date: Wed, 20 Nov 2024 19:51:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.643317
Title: Hymba: A Hybrid-head Architecture for Small Language Models
Title（参考訳）: Hymba: 小型言語モデルのためのハイブリッドヘッドアーキテクチャ
Authors: Xin Dong, Yonggan Fu, Shizhe Diao, Wonmin Byeon, Zijia Chen, Ameya Sunil Mahabaleshwarkar, Shih-Yang Liu, Matthijs Van Keirsbilck, Min-Hung Chen, Yoshi Suhara, Yingyan Lin, Jan Kautz, Pavlo Molchanov,
Abstract要約: Hymbaは、ハイブリッドヘッド並列アーキテクチャを特徴とする、小さな言語モデルのファミリーである。重要な情報を保持するプロンプトに先立って,学習可能なメタトークンを導入する。このモデルは、層間鍵値共有と部分的スライディングウィンドウアテンションを組み込むことにより、さらに最適化される。
参考スコア（独自算出の注目度）: 65.94140459055244
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose Hymba, a family of small language models featuring a hybrid-head parallel architecture that integrates transformer attention mechanisms with state space models (SSMs) for enhanced efficiency. Attention heads provide high-resolution recall, while SSM heads enable efficient context summarization. Additionally, we introduce learnable meta tokens that are prepended to prompts, storing critical information and alleviating the "forced-to-attend" burden associated with attention mechanisms. This model is further optimized by incorporating cross-layer key-value (KV) sharing and partial sliding window attention, resulting in a compact cache size. During development, we conducted a controlled study comparing various architectures under identical settings and observed significant advantages of our proposed architecture. Notably, Hymba achieves state-of-the-art results for small LMs: Our Hymba-1.5B-Base model surpasses all sub-2B public models in performance and even outperforms Llama-3.2-3B with 1.32% higher average accuracy, an 11.67x cache size reduction, and 3.49x throughput.
Abstract（参考訳）: 我々は,トランスフォーマーアテンション機構と状態空間モデル(SSM)を統合して効率を向上させるハイブリッドヘッド並列アーキテクチャを特徴とする,小型言語モデルのファミリーであるHymbaを提案する。アテンションヘッドは高精細なリコールを提供するが、SSMヘッドは効率的なコンテキスト要約を可能にする。さらに,学習可能なメタトークンを導入し,重要な情報を保存し,注意機構に関連する「強制的・強制的」負担を軽減する。このモデルは、層間鍵値(KV)共有と部分的スライディングウィンドウアテンションを組み込むことにより、キャッシュサイズを小さくすることで、さらに最適化されている。開発期間中に,各アーキテクチャを同一設定で比較し,提案アーキテクチャの顕著な優位性について検討した。私たちのHymba-1.5B-Baseモデルは、パフォーマンスにおいてすべてのサブ2Bのパブリックモデルを超え、Llama-3.2-3Bよりも1.32%高い平均精度、11.67倍のキャッシュサイズ、および3.49倍のスループットで性能を上げています。

関連論文リスト

KaLM-Embedding-V2: Superior Training Techniques and Data Inspire A Versatile Embedding Model [46.95431131609286]
汎用的・コンパクトな埋め込みモデルである KaLM-Embedding-V2 は汎用テキスト埋め込みタスクにおいて優れた性能を発揮する。 i) 大規模弱教師付きオープンソースコーパスの事前トレーニング、(ii) 高品質な検索と非検索データセットの微調整、(iii) 堅牢な一般化のためのモデル-バックアップパラメータ平均化。
論文参考訳（メタデータ） (2025-06-26T01:09:44Z)
Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。 SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文参考訳（メタデータ） (2025-05-10T17:15:49Z)
Efficient Hybrid Language Model Compression through Group-Aware SSM Pruning [54.584665518334035]
注意と状態空間モデル(SSM)を組み合わせたハイブリッドアーキテクチャは、最先端の精度と実行時のパフォーマンスを達成する。近年の研究では、アテンションのみのモデルに圧縮と蒸留を適用することで、トレーニングコストのごく一部でより小さく、より正確なモデルが得られることが示されている。本稿では,SSMブロックの構造的整合性とそのシーケンスモデリング機能を維持するグループ対応プルーニング戦略を提案する。
論文参考訳（メタデータ） (2025-04-15T17:26:29Z)
Sigma: Differential Rescaling of Query, Key and Value for Efficient Language Models [75.58140912100318]
本稿では,DiffQKV の注目を含む新しいアーキテクチャを応用した,システムドメインに特化した効率的な大規模言語モデルを提案する。我々は、モデルがK成分とV成分の圧縮に対して様々な感度を持つことを示す実験を行い、微分圧縮KVの開発に繋がる。我々は最初の総合ベンチマークであるAIMiciusを紹介し、Sigmaはすべてのタスクで顕著なパフォーマンスを示し、52.5%の絶対的な改善でGPT-4を著しく上回った。
論文参考訳（メタデータ） (2025-01-23T12:58:14Z)
CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [53.539020807256904]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。トークン化方式は、チャネルごとのパッチで脳波信号を表現します。本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文参考訳（メタデータ） (2025-01-18T21:44:38Z)
GroupMamba: Parameter-Efficient and Accurate Group Visual State Space Model [66.35608254724566]
状態空間モデル(SSM)は、二次的複雑性を伴う長距離依存のモデリングにおいて効果的な性能を示した。しかし、純粋なSSMベースのモデルは、コンピュータビジョンタスクにおける安定性と最適性能の達成に関連する課題に直面している。本稿では,コンピュータビジョンのためのSSMベースのモデルをスケールする上での課題,特に大規模モデルの不安定性と非効率性について論じる。
論文参考訳（メタデータ） (2024-07-18T17:59:58Z)
HRSAM: Efficient Interactive Segmentation in High-Resolution Images [59.537068118473066]
Segment Anything Model (SAM) は高度な対話的セグメンテーションを持つが、高解像度画像の計算コストによって制限される。本稿では,視覚長外挿に着目し,HRSAMという軽量モデルを提案する。この外挿により、HRSAMは低分解能で訓練され、高分解能に一般化できる。
論文参考訳（メタデータ） (2024-07-02T09:51:56Z)
Imp: Highly Capable Large Multimodal Models for Mobile Devices [19.328141787433704]
大規模言語モデル(LLM)は、オープンワールドのマルチモーダル理解において顕著な汎用性を示している。それらは通常パラメータ重で計算集約的であり、リソース制約のあるシナリオにおける適用性を妨げます。本稿では,モデルアーキテクチャ,トレーニング戦略,トレーニングデータの観点から,軽量LMMの体系的研究を行う。その結果,2B-4Bスケールで高い能力を有するLMMのファミリーであるImpが得られた。
論文参考訳（メタデータ） (2024-05-20T15:23:19Z)
Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-06T03:06:33Z)
DiTMoS: Delving into Diverse Tiny-Model Selection on Microcontrollers [34.282971510732736]
我々は、セレクタ分類器アーキテクチャを備えた新しいDNNトレーニングおよび推論フレームワークであるDiTMoSを紹介する。弱いモデルの合成は高い多様性を示すことができ、それらの結合は精度の上限を大幅に高めることができる。我々は,Nucleo STM32F767ZIボード上にDiTMoSをデプロイし,人間の活動認識,キーワードスポッティング,感情認識のための時系列データセットに基づいて評価する。
論文参考訳（メタデータ） (2024-03-14T02:11:38Z)
Dual-Query Multiple Instance Learning for Dynamic Meta-Embedding based Tumor Classification [5.121989578393729]
全スライド画像(WSI)の評価は、がんの診断と治療計画において困難かつ重要なステップである。粗粒度のラベルは容易にアクセスでき、WSI分類がマルチインスタンス学習(MIL)の理想的なユースケースとなる。埋め込み型Dual-Query MILパイプライン(DQ-MIL)を提案する。
論文参考訳（メタデータ） (2023-07-14T17:06:49Z)
Faster Attention Is What You Need: A Fast Self-Attention Neural Network Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文参考訳（メタデータ） (2022-08-15T02:47:33Z)
CascadER: Cross-Modal Cascading for Knowledge Graph Link Prediction [22.96768147978534]
本稿では,効率を向上しつつ,完全アンサンブルのランキング精度を維持するための階層型ランキングアーキテクチャCascaderを提案する。 CascadER は LM を用いて、より効率的な KGE の出力を再現し、KGE の精度向上を最大化しつつ、LM を最小限に呼び出すための適応的なサブセット選択方式に依存している。実験により, モデル間の多様性と個々のモデルの信頼性信号の保存がカスケーダの有効性を説明するのに有効であることがわかった。
論文参考訳（メタデータ） (2022-05-16T22:55:45Z)
Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。 Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文参考訳（メタデータ） (2021-10-07T11:58:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。