論文の概要: Longhorn: State Space Models are Amortized Online Learners
- arxiv url: http://arxiv.org/abs/2407.14207v5
- Date: Wed, 02 Oct 2024 14:32:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-03 15:16:50.560341
- Title: Longhorn: State Space Models are Amortized Online Learners
- Title(参考訳): Longhorn: ステートスペースモデルはオンライン学習者の記憶に残るもの
- Authors: Bo Liu, Rui Wang, Lemeng Wu, Yihao Feng, Peter Stone, Qiang Liu,
- Abstract要約: ステートスペースモデル(SSM)は、トレーニング中に並列性を維持しながら線形デコード効率を提供する。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
我々は、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しいディープSSMアーキテクチャであるLonghornを紹介した。
- 参考スコア(独自算出の注目度): 51.10124201221601
- License:
- Abstract: Modern large language models are built on sequence modeling via next-token prediction. While the Transformer remains the dominant architecture for sequence modeling, its quadratic decoding complexity in sequence length poses a major limitation. State-space models (SSMs) present a competitive alternative, offering linear decoding efficiency while maintaining parallelism during training. However, most existing SSMs rely on linear recurrence designs that appear somewhat ad hoc. In this work, we explore SSM design through the lens of online learning, conceptualizing SSMs as meta-modules for specific online learning problems. This approach links SSM design to formulating precise online learning objectives, with state transition rules derived from solving these objectives. Based on this insight, we introduce a novel deep SSM architecture, Longhorn, whose update resembles the closed-form solution for solving the online associative recall problem. Our experimental results show that Longhorn outperforms state-of-the-art SSMs, including the Mamba model, on standard sequence modeling benchmarks, language modeling, and vision tasks. Specifically, Longhorn achieves a 1.8x improvement in sample efficiency compared to Mamba, and can extrapolate over contexts that are up to 16x longer during inference.
- Abstract(参考訳): 現代の大規模言語モデルは、次から次へと予測することでシーケンスモデリングに基づいて構築されている。
トランスフォーマーはシークエンス・モデリングの主要なアーキテクチャであり続けているが、シークエンス・長さにおける2次デコーディングの複雑さは大きな限界をもたらす。
ステートスペースモデル(SSM)は、訓練中に並列性を保ちながら線形復号効率を提供する競争上の選択肢である。
しかし、既存のほとんどのSSMは、ややアドホックに見える線形リカレンス設計に依存している。
本研究では、オンライン学習のレンズを通してSSM設計を探求し、特定のオンライン学習問題のメタモジュールとしてSSMを概念化する。
このアプローチは、SSM設計と正確なオンライン学習目標の定式化を結びつけ、これらの目的を解いた状態遷移規則を導出する。
この知見に基づいて、オンライン連想的リコール問題を解決するためのクローズドフォームソリューションに類似した、新しい深層SSMアーキテクチャであるLonghornを導入する。
実験の結果、Longhornは標準シーケンスモデリングベンチマーク、言語モデリング、ビジョンタスクにおいて、Mambaモデルを含む最先端のSSMよりも優れていることがわかった。
具体的には、ロングホーンはマンバに比べて1.8倍の効率向上を達成し、推論中に最大16倍長いコンテキストを外挿することができる。
関連論文リスト
- Mamba-FSCIL: Dynamic Adaptation with Selective State Space Model for Few-Shot Class-Incremental Learning [113.89327264634984]
FSCIL(Few-shot class-incremental Learning)は、最小限のトレーニングサンプルを持つモデルに新しいクラスを統合するという課題に直面している。
動的適応を誘導するクラス感受性選択的スキャン機構を開発した。
miniImageNet, CUB-200, CIFAR-100 の実験により,我々のフレームワークは既存の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-07-08T17:09:39Z) - The Expressive Capacity of State Space Models: A Formal Language Perspective [0.8948475969696075]
線形状態空間モデル(SSM)に基づくリカレントモデルは、言語モデリング(LM)において有望な性能を示した。
本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。
論文 参考訳(メタデータ) (2024-05-27T17:46:57Z) - There is HOPE to Avoid HiPPOs for Long-memory State Space Models [51.66430224089725]
線形時間不変(LTI)システムを利用する状態空間モデル(SSM)は、長いシーケンスの学習において有効であることが知られている。
我々は,ハンケル作用素内のパラメータを利用するLTIシステムに対して,HOPEと呼ばれる新しいパラメータ化手法を開発した。
我々のモデルは、LTIシステムの転送関数を一様にサンプリングすることで、これらの革新を効率的に実装する。
論文 参考訳(メタデータ) (2024-05-22T20:20:14Z) - State Space Models as Foundation Models: A Control Theoretic Overview [3.3222241150972356]
近年、ディープニューラルネットワークアーキテクチャにおける線形状態空間モデル(SSM)の統合への関心が高まっている。
本論文は、制御理論者のためのSSMベースのアーキテクチャの穏やかな導入を目的としたものである。
もっとも成功したSSM提案の体系的なレビューを提供し、コントロール理論の観点から主要な特徴を強調している。
論文 参考訳(メタデータ) (2024-03-25T16:10:47Z) - Theoretical Foundations of Deep Selective State-Space Models [14.989266348816749]
ディープSSMは、さまざまなドメインセットで優れたパフォーマンスを示す。
最近の研究で、線形リカレンス電力が入力と隠れ状態の間の乗法的相互作用を可能にすることが示されている。
ランダム線形再帰が単純な入力制御遷移を備える場合、隠れ状態は強力な数学的対象の低次元射影であることを示す。
論文 参考訳(メタデータ) (2024-02-29T11:20:16Z) - Online Calibration of Deep Learning Sub-Models for Hybrid Numerical
Modeling Systems [34.50407690251862]
本稿では,ハイブリッドシステムのための効率的かつ実用的なオンライン学習手法を提案する。
オイラー勾配近似(Euler Gradient Approximation)のEGA(Euler Gradient Approximation)と呼ばれる手法は、無限に小さな時間ステップの極限における正確な勾配に収束することを示した。
その結果、オフライン学習よりも大幅に改善され、ハイブリッドモデリングにおけるエンド・ツー・エンドのオンライン学習の可能性を強調した。
論文 参考訳(メタデータ) (2023-11-17T17:36:26Z) - Recasting Continual Learning as Sequence Modeling [44.437160324905726]
本稿では,連続学習をシーケンスモデリング問題として定式化することを提案する。
メタ連続学習(MCL)フレームワークを採用することで、メタレベルでシーケンスモデルをトレーニングすることができる。
分類と回帰の両方を網羅した7つのベンチマーク実験により、シーケンスモデルが一般的なMCLにとって魅力的な解であることを示す。
論文 参考訳(メタデータ) (2023-10-18T13:26:52Z) - Sparse Modular Activation for Efficient Sequence Modeling [94.11125833685583]
線形状態空間モデルと自己アテンション機構を組み合わせた最近のモデルでは、様々なシーケンスモデリングタスクにおいて顕著な結果が示されている。
現在のアプローチでは、アテンションモジュールを静的かつ均一に入力シーケンスのすべての要素に適用し、最適以下の品質効率のトレードオフをもたらす。
SMA(Sparse Modular Activation)は,ニューラルネットワークが配列要素のサブモジュールを異なる方法でスパースに活性化する機構である。
論文 参考訳(メタデータ) (2023-06-19T23:10:02Z) - Stabilizing Equilibrium Models by Jacobian Regularization [151.78151873928027]
ディープ均衡ネットワーク(Deep equilibrium Network, DEQs)は、単一非線形層の固定点を見つけるために従来の深さを推定する新しいモデルのクラスである。
本稿では、平衡モデルの学習を安定させるために、固定点更新方程式のヤコビアンを明示的に正規化するDECモデルの正規化スキームを提案する。
この正規化は計算コストを最小限に抑え、前方と後方の両方の固定点収束を著しく安定化させ、高次元の現実的な領域に順応することを示した。
論文 参考訳(メタデータ) (2021-06-28T00:14:11Z) - Reinforcement Learning as One Big Sequence Modeling Problem [84.84564880157149]
強化学習(Reinforcement Learning, RL)は、通常、単一ステップポリシーや単一ステップモデルの推定に関係している。
我々は、RLをシーケンスモデリング問題とみなし、高い報酬のシーケンスにつながる一連のアクションを予測することを目標としている。
論文 参考訳(メタデータ) (2021-06-03T17:58:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。