論文の概要: DenseMamba: State Space Models with Dense Hidden Connection for
Efficient Large Language Models
- arxiv url: http://arxiv.org/abs/2403.00818v2
- Date: Tue, 5 Mar 2024 14:31:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:43:52.587795
- Title: DenseMamba: State Space Models with Dense Hidden Connection for
Efficient Large Language Models
- Title(参考訳): DenseMamba: 効率的な大規模言語モデルのためのDense Hidden Connectionを備えた状態空間モデル
- Authors: Wei He, Kai Han, Yehui Tang, Chengcheng Wang, Yujie Yang, Tianyu Guo,
Yunhe Wang
- Abstract要約: 本稿では,SSM層間の隠れ情報の流れを改善する新しい手法であるDenseSSMを紹介する。
同様のモデルサイズで、DenseSSMは、DenseRetNetが示すように、公開ベンチマークで最大5%の精度向上を実現している。
- 参考スコア(独自算出の注目度): 44.260111709174055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) face a daunting challenge due to the excessive
computational and memory requirements of the commonly used Transformer
architecture. While state space model (SSM) is a new type of foundational
network architecture offering lower computational complexity, their performance
has yet to fully rival that of Transformers. This paper introduces DenseSSM, a
novel approach to enhance the flow of hidden information between layers in
SSMs. By selectively integrating shallowlayer hidden states into deeper layers,
DenseSSM retains fine-grained information crucial for the final output. Dense
connections enhanced DenseSSM still maintains the training parallelizability
and inference efficiency. The proposed method can be widely applicable to
various SSM types like RetNet and Mamba. With similar model size, DenseSSM
achieves significant improvements, exemplified by DenseRetNet outperforming the
original RetNet with up to 5% accuracy improvement on public benchmarks. code
is avalaible at https://github.com/WailordHe/DenseSSM
- Abstract(参考訳): 大規模言語モデル(LLM)は、一般的に使用されるTransformerアーキテクチャの過剰な計算とメモリ要求のため、大変な問題に直面している。
状態空間モデル(SSM)は新しいタイプの基盤ネットワークアーキテクチャであり、より低い計算複雑性を提供するが、その性能はTransformersと完全に競合していない。
本稿では,SSM層間の隠れ情報の流れを改善する新しい手法であるDenseSSMを紹介する。
浅い層を深い層に選択的に統合することで、DenseSSMは最終的な出力に不可欠なきめ細かい情報を保持できる。
Dense接続を強化したDenseSSMは、トレーニングの並列化性と推論効率を維持している。
提案手法はRetNetやMambaといった様々なSSMタイプに適用可能である。
DenseSSMは同様のモデルサイズで大幅に改善され、DenseRetNetは、公開ベンチマークで最大5%の精度でオリジナルのRetNetを上回った。
コードはhttps://github.com/wailordhe/densessmで評価できる
関連論文リスト
- LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z) - Selective State Space Memory for Large Vision-Language Models [0.0]
State Space Memory Integration (SSMI)は、LVLMの効率的な微調整のための新しいアプローチである。
SSMIは長距離依存関係をキャプチャし、タスク固有の視覚的およびシーケンシャルなパターンを効果的に注入する。
COCO Captioning、VQA、Flickr30kといったベンチマークデータセットの実験は、SSMIが最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2024-12-13T05:40:50Z) - MOFHEI: Model Optimizing Framework for Fast and Efficient Homomorphically Encrypted Neural Network Inference [0.8388591755871735]
ホモモルフィック暗号化(HE)により、暗号化データ上で機械学習タスクを実行できる。
HEに基づくニューラルネットワーク推論を高速かつ効率的にするためのモデルを最適化するフレームワークであるMOFHEIを提案する。
このフレームワークはLeNet上で最大98%のプルーニング比を実現し,PI実行に必要なHE操作の最大93%を排除した。
論文 参考訳(メタデータ) (2024-12-10T22:44:54Z) - SEM-Net: Efficient Pixel Modelling for image inpainting with Spatially Enhanced SSM [11.447968918063335]
画像の塗装は、画像の既知の領域の情報に基づいて、部分的に損傷した画像の修復を目的としている。
SEM-Netは、新しいビジュアル・ステート・スペース・モデル(SSM)ビジョン・ネットワークであり、画像の劣化をピクセルレベルでモデル化し、状態空間における長距離依存(LRD)をキャプチャする。
論文 参考訳(メタデータ) (2024-11-10T00:35:14Z) - Longhorn: State Space Models are Amortized Online Learners [51.10124201221601]
ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
論文 参考訳(メタデータ) (2024-07-19T11:12:08Z) - Online Adaptation of Language Models with a Memory of Amortized Contexts [82.02369596879817]
MAC(Memory of Amortized Contexts)は、大規模言語モデルのための効率的かつ効果的なオンライン適応フレームワークである。
MACとMACを組み合わせれば,検索の高速化など,一般的な代替手段の性能が向上することを示す。
論文 参考訳(メタデータ) (2024-03-07T08:34:57Z) - Theoretical Foundations of Deep Selective State-Space Models [13.971499161967083]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - EfficientState Space Model viaFast Tensor Convolutionand Block Diagonalization [5.260841516691153]
本稿では,マルチインプットマルチアウトプットSSMに基づく新しい状態空間層,すなわち効率的なSSMを提案する。
我々のeSSMは、マルチインプットおよびマルチインプット(MIMO)SSMの畳み込み表現に基づいて構築されている。
モデル効率ベンチマークでは、eSSMのパラメータはLSTMの12.89%、Mambaの13.24%に過ぎなかった。
論文 参考訳(メタデータ) (2024-02-23T12:36:31Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。