論文の概要: Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers
- arxiv url: http://arxiv.org/abs/2407.09941v1
- Date: Sat, 13 Jul 2024 16:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:08:02.917135
- Title: Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers
- Title(参考訳): Hydra: 一般化マトリックスミキサーによる双方向状態空間モデル
- Authors: Sukjun Hwang, Aakash Lahoti, Tri Dao, Albert Gu,
- Abstract要約: 本稿では、入力シーケンス上の線形写像として概念化できる配列ミキサーの統一行列ミキサービューについて検討する。
我々は行列パラメータ化のキー軸を配列アライメントと呼び、行列ミキサーの柔軟性と性能を高める。
準分離行列ミキサーとしてパラメータ化されたMambaモデル(Hydra)の自然な双方向拡張を提案する。
- 参考スコア(独自算出の注目度): 29.774363290786713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A wide array of sequence models are built on a framework modeled after Transformers, comprising alternating sequence mixer and channel mixer layers. This paper studies a unifying matrix mixer view of sequence mixers that can be conceptualized as a linear map on the input sequence. This framework encompasses a broad range of well-known sequence models, including the self-attention of Transformers as well as recent strong alternatives such as structured state space models (SSMs), and allows understanding downstream characteristics such as efficiency and expressivity through properties of their structured matrix class. We identify a key axis of matrix parameterizations termed sequence alignment, which increases the flexibility and performance of matrix mixers, providing insights into the strong performance of Transformers and recent SSMs such as Mamba. Furthermore, the matrix mixer framework offers a systematic approach to developing sequence mixers with desired properties, allowing us to develop several new sub-quadratic sequence models. In particular, we propose a natural bidirectional extension of the Mamba model (Hydra), parameterized as a quasiseparable matrix mixer, which demonstrates superior performance over other sequence models including Transformers on non-causal tasks. As a drop-in replacement for attention layers, Hydra outperforms BERT by 0.8 points on the GLUE benchmark and ViT by 2% Top-1 accuracy on ImageNet.
- Abstract(参考訳): シークエンスモデルは、交互に配列ミキサーとチャネルミキサー層で構成されるトランスフォーマーをモデルとしたフレームワーク上に構築されている。
本稿では、入力シーケンス上の線形写像として概念化できる配列ミキサーの統一行列ミキサービューについて検討する。
このフレームワークは、トランスフォーマーの自己アテンションや、構造化状態空間モデル(SSM)のような最近の強力な代替品を含む、広く知られたシーケンスモデルを含み、構造化行列クラスの特性を通じて効率性や表現性などの下流特性を理解することができる。
行列ミキサーの柔軟性と性能を高め、トランスフォーマーの強みと、Mambaのような最近のSSMの強みを洞察する行列パラメタライゼーションのキー軸を列アライメントと呼ぶ。
さらに、行列ミキサーフレームワークは、所望の特性を持つ配列ミキサーを開発するための体系的なアプローチを提供し、いくつかの新しいサブクオーラシークエンスモデルを開発することができる。
特に,疑似分離可能な行列ミキサーとしてパラメータ化されたMambaモデル(Hydra)の自然な双方向拡張を提案する。
注目レイヤのドロップイン置換として、Hydraは、GLUEベンチマークでBERTを0.8ポイント、ImageNetでViTを2%上回った。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。
事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。
適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。
SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文 参考訳(メタデータ) (2024-10-30T12:08:30Z) - MaskMamba: A Hybrid Mamba-Transformer Model for Masked Image Generation [63.73137438677585]
MaskMambaは、MambaとTransformerアーキテクチャを組み合わせた新しいハイブリッドモデルである。
トランスフォーマーよりも2048時間2048ドルという解像度で、推論速度が54.44%向上した。
論文 参考訳(メタデータ) (2024-09-30T04:28:55Z) - PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - GIVT: Generative Infinite-Vocabulary Transformers [18.55070896912795]
実数値エントリを持つベクトル列を生成するGIVT(Generative Infinite-Vocabulary Transformers)を導入する。
VQ-GANとMaskGITの画像生成パラダイムにインスパイアされた私たちは、GIVTを使って、$beta$-VAEの未定量実数値列をモデル化する。
クラス条件画像生成におけるGIVTは、VQ-GANやMaskGITよりも優れ、近年の潜伏拡散モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-12-04T18:48:02Z) - Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture [31.763186154430347]
新しいアーキテクチャであるMonarch Mixer (M2)を導入し、配列長とモデル次元の両方で同じサブクアクラティックプリミティブを使用する。
概念実証として,非因果型BERT型言語モデリング,ViT型分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。
非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large と GLUE の品質を最大 27% のパラメータで一致させ、最大 9.1$times のシーケンス長 4K でのスループット向上を実現した。
論文 参考訳(メタデータ) (2023-10-18T17:06:22Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。