論文の概要: Gated Delta Networks: Improving Mamba2 with Delta Rule
- arxiv url: http://arxiv.org/abs/2412.06464v1
- Date: Mon, 09 Dec 2024 13:09:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:57:44.311637
- Title: Gated Delta Networks: Improving Mamba2 with Delta Rule
- Title(参考訳): Gated Delta Networks: Delta RuleによるMamba2の改善
- Authors: Songlin Yang, Jan Kautz, Ali Hatamizadeh,
- Abstract要約: Gated DeltaNetは、複数のベンチマークで、Mamba2やDeltaNetのような既存のモデルを一貫して上回っている。
我々は,Gated DeltaNet 層とスライディングウィンドウアテンション,あるいは Mamba2 層を組み合わせたハイブリッドアーキテクチャを開発し,学習効率の向上とタスク性能の向上を実現した。
- 参考スコア(独自算出の注目度): 64.58149707073915
- License:
- Abstract: Linear Transformers have gained attention as efficient alternatives to standard Transformers, but their performance in retrieval and long-context tasks has been limited. To address these limitations, recent work has explored two distinct mechanisms: gating for adaptive memory control and the delta update rule for precise memory modifications. We observe that these mechanisms are complementary: gating enables rapid memory erasure while the delta rule facilitates targeted updates. Building on this insight, we introduce the gated delta rule and develop a parallel training algorithm optimized for modern hardware. Our proposed architecture, Gated DeltaNet, consistently surpasses existing models like Mamba2 and DeltaNet across multiple benchmarks, including language modeling, common-sense reasoning, in-context retrieval, length extrapolation, and long-context understanding. We further enhance performance by developing hybrid architectures that combine Gated DeltaNet layers with sliding window attention or Mamba2 layers, achieving both improved training efficiency and superior task performance.
- Abstract(参考訳): リニアトランスフォーマーは、標準的なトランスフォーマーに代わる効率的な代替手段として注目されているが、検索や長文タスクのパフォーマンスは制限されている。
これらの制限に対処するため、最近の研究では、適応型メモリ制御のためのゲーティングと、正確なメモリ修正のためのデルタ更新ルールという、2つの異なるメカニズムが検討されている。
ゲーティングは高速なメモリ消去を可能にし、デルタルールはターゲット更新を容易にする。
この知見に基づいて、ゲートデルタ則を導入し、現代のハードウェアに最適化された並列トレーニングアルゴリズムを開発する。
提案したアーキテクチャであるGated DeltaNetは、言語モデリング、常識推論、コンテキスト内検索、長さ補間、長いコンテキスト理解など、複数のベンチマークで、Mamba2やDeltaNetのような既存のモデルを一貫して上回っている。
我々は、Gated DeltaNetレイヤとスライディングウィンドウアテンションまたはMamba2レイヤを組み合わせたハイブリッドアーキテクチャを開発し、トレーニング効率の向上とタスクパフォーマンスの向上を両立させることにより、パフォーマンスをさらに向上させる。
関連論文リスト
- Birdie: Advancing State Space Models with Reward-Driven Objectives and Curricula [23.071384759427072]
状態空間モデル(SSM)はトランスフォーマーよりも利点があるが、長期のコンテキスト内検索のようなテキストコピー、連想リコール、質問応答を必要とするタスクに苦労する。
本研究では,SSMのコンテキスト内検索能力を大幅に向上する新たな学習手法であるBirdieを提案する。
論文 参考訳(メタデータ) (2024-11-01T21:01:13Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - Gated Slot Attention for Efficient Linear-Time Sequence Modeling [59.019501274074564]
Gated Slot Attention(GSA)は境界メモリ・コントロル(ABC)による注意を高める
GSAはGated Linear Attention (GLA)にインスパイアされたゲーティング機構を組み込んでいる
論文 参考訳(メタデータ) (2024-09-11T09:49:50Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Efficient Sparsely Activated Transformers [0.34410212782758054]
トランスフォーマーベースのニューラルネットワークは、多くの機械学習ドメインで最先端のタスクパフォーマンスを実現している。
最近の研究は、これらのネットワークへの動的挙動の混合層(mixed-of-expert layer)の形での統合について検討している。
我々は,既存のTransformerベースのネットワークとユーザ定義のレイテンシターゲットを取り入れたPLANERという新しいシステムを導入する。
論文 参考訳(メタデータ) (2022-08-31T00:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。