論文の概要: Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers
- arxiv url: http://arxiv.org/abs/2407.09941v1
- Date: Sat, 13 Jul 2024 16:34:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:08:02.917135
- Title: Hydra: Bidirectional State Space Models Through Generalized Matrix Mixers
- Title(参考訳): Hydra: 一般化マトリックスミキサーによる双方向状態空間モデル
- Authors: Sukjun Hwang, Aakash Lahoti, Tri Dao, Albert Gu,
- Abstract要約: 本稿では、入力シーケンス上の線形写像として概念化できる配列ミキサーの統一行列ミキサービューについて検討する。
我々は行列パラメータ化のキー軸を配列アライメントと呼び、行列ミキサーの柔軟性と性能を高める。
準分離行列ミキサーとしてパラメータ化されたMambaモデル(Hydra)の自然な双方向拡張を提案する。
- 参考スコア(独自算出の注目度): 29.774363290786713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A wide array of sequence models are built on a framework modeled after Transformers, comprising alternating sequence mixer and channel mixer layers. This paper studies a unifying matrix mixer view of sequence mixers that can be conceptualized as a linear map on the input sequence. This framework encompasses a broad range of well-known sequence models, including the self-attention of Transformers as well as recent strong alternatives such as structured state space models (SSMs), and allows understanding downstream characteristics such as efficiency and expressivity through properties of their structured matrix class. We identify a key axis of matrix parameterizations termed sequence alignment, which increases the flexibility and performance of matrix mixers, providing insights into the strong performance of Transformers and recent SSMs such as Mamba. Furthermore, the matrix mixer framework offers a systematic approach to developing sequence mixers with desired properties, allowing us to develop several new sub-quadratic sequence models. In particular, we propose a natural bidirectional extension of the Mamba model (Hydra), parameterized as a quasiseparable matrix mixer, which demonstrates superior performance over other sequence models including Transformers on non-causal tasks. As a drop-in replacement for attention layers, Hydra outperforms BERT by 0.8 points on the GLUE benchmark and ViT by 2% Top-1 accuracy on ImageNet.
- Abstract(参考訳): シークエンスモデルは、交互に配列ミキサーとチャネルミキサー層で構成されるトランスフォーマーをモデルとしたフレームワーク上に構築されている。
本稿では、入力シーケンス上の線形写像として概念化できる配列ミキサーの統一行列ミキサービューについて検討する。
このフレームワークは、トランスフォーマーの自己アテンションや、構造化状態空間モデル(SSM)のような最近の強力な代替品を含む、広く知られたシーケンスモデルを含み、構造化行列クラスの特性を通じて効率性や表現性などの下流特性を理解することができる。
行列ミキサーの柔軟性と性能を高め、トランスフォーマーの強みと、Mambaのような最近のSSMの強みを洞察する行列パラメタライゼーションのキー軸を列アライメントと呼ぶ。
さらに、行列ミキサーフレームワークは、所望の特性を持つ配列ミキサーを開発するための体系的なアプローチを提供し、いくつかの新しいサブクオーラシークエンスモデルを開発することができる。
特に,疑似分離可能な行列ミキサーとしてパラメータ化されたMambaモデル(Hydra)の自然な双方向拡張を提案する。
注目レイヤのドロップイン置換として、Hydraは、GLUEベンチマークでBERTを0.8ポイント、ImageNetでViTを2%上回った。
関連論文リスト
- Mamba or RWKV: Exploring High-Quality and High-Efficiency Segment Anything Model [138.20621211946985]
変換器を用いた分割法は高解像度画像を扱う際の効率的な推論の課題に直面している。
本研究では,異なるアーキテクチャを探索し,効率的なセグメント・アズ・ア・モデルの設計に焦点をあてる。
RWKV-SAM は SAM-like モデルのための単純で効果的で高速なベースラインである。
論文 参考訳(メタデータ) (2024-06-27T17:49:25Z) - Parallelizing Linear Transformers with the Delta Rule over Sequence Length [49.88826673324244]
この研究は、デルタ則で線形変圧器を訓練するためのハードウェア効率の良いアルゴリズムについて述べる。
我々は100Bトークンに対して1.3Bモデルをトレーニングし、最近の線形時間ベースラインよりも優れていることを発見した。
また、DeltaNet層を他の層または2つのグローバルアテンション層すべてにスライドウインドウアテンション層と組み合わせた2つのハイブリッドモデルの実験を行った。
論文 参考訳(メタデータ) (2024-06-10T17:24:42Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - GIVT: Generative Infinite-Vocabulary Transformers [18.55070896912795]
実数値エントリを持つベクトル列を生成するGIVT(Generative Infinite-Vocabulary Transformers)を導入する。
VQ-GANとMaskGITの画像生成パラダイムにインスパイアされた私たちは、GIVTを使って、$beta$-VAEの未定量実数値列をモデル化する。
クラス条件画像生成におけるGIVTは、VQ-GANやMaskGITよりも優れ、近年の潜伏拡散モデルと競合する性能を実現する。
論文 参考訳(メタデータ) (2023-12-04T18:48:02Z) - Monarch Mixer: A Simple Sub-Quadratic GEMM-Based Architecture [31.763186154430347]
新しいアーキテクチャであるMonarch Mixer (M2)を導入し、配列長とモデル次元の両方で同じサブクアクラティックプリミティブを使用する。
概念実証として,非因果型BERT型言語モデリング,ViT型分類,因果型GPT型言語モデリングの3分野におけるM2の性能について検討する。
非因果的 BERT スタイルのモデリングでは、M2 は BERT-base と BERT-large と GLUE の品質を最大 27% のパラメータで一致させ、最大 9.1$times のシーケンス長 4K でのスループット向上を実現した。
論文 参考訳(メタデータ) (2023-10-18T17:06:22Z) - AMT: All-Pairs Multi-Field Transforms for Efficient Frame Interpolation [80.33846577924363]
ビデオフレームギスブのための新しいネットワークアーキテクチャであるAMT(All-Pairs Multi-Field Transforms)を提案する。
まず、すべての画素に対して双方向のボリュームを構築し、予測された両側フローを用いて相関関係を検索する。
第2に、入力フレーム上で逆向きのワープを行うために、一対の更新された粗い流れから細粒度の流れ場の複数のグループを導出する。
論文 参考訳(メタデータ) (2023-04-19T16:18:47Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action
Recognition [66.96931254510544]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Sinkformers: Transformers with Doubly Stochastic Attention [22.32840998053339]
我々はシンクホルンのアルゴリズムを用いて注意行列を2倍にし、その結果のモデルをシンクフォーマと呼ぶ。
実験面では、Sinkformersは視覚および自然言語処理タスクにおけるモデルの精度を向上させる。
重要なのは、3D形状の分類において、シンクフォーマーは顕著な改善をもたらすことである。
論文 参考訳(メタデータ) (2021-10-22T13:25:01Z) - Regularizing Transformers With Deep Probabilistic Layers [62.997667081978825]
本研究では,BERT に深層生成モデルを含めることで,より汎用的なモデルを実現する方法を示す。
トランスフォーマーだけでなく、最も関連性の高いエンコーダデコーダベースのLM, seq2seqでも、注意なく有効であることを示す。
論文 参考訳(メタデータ) (2021-08-23T10:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。