論文の概要: TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding
- arxiv url: http://arxiv.org/abs/2506.09507v2
- Date: Thu, 12 Jun 2025 08:58:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 13:18:14.188815
- Title: TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding
- Title(参考訳): TransXSSM: 一体型回転位置埋め込みを用いたハイブリッド変圧器状態空間モデル
- Authors: Bingheng Wu, Jingze Shi, Yifan Wu, Nan Tang, Yuyu Luo,
- Abstract要約: 本稿では,Transformer層とSSM層を協調的に統合したハイブリッドアーキテクチャであるTransXSSMを紹介する。
4Kシーケンス長では、TransXSSMは標準のTransformerモデルと比較してそれぞれ42.3%と29.5%のトレーニング速度と推論速度を示す。
この結果から,ハイブリッドモデルにおける位置整合性は統一的位置整合性によって解決され,効率的かつ高性能な長コンテキストモデリングが可能であることが示唆された。
- 参考スコア(独自算出の注目度): 19.42637769220759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers exhibit proficiency in capturing long-range dependencies, whereas State Space Models (SSMs) facilitate linear-time sequence modeling. Notwithstanding their synergistic potential, the integration of these architectures presents a significant challenge, primarily attributable to a fundamental incongruity in their respective positional encoding mechanisms: Transformers rely on explicit Rotary Position Embeddings (RoPE), while SSMs leverage implicit positional representations via convolutions. This divergence often precipitates discontinuities and suboptimal performance. To address this impediment, we propose a unified rotary position embedding (Unified RoPE) methodology, thereby establishing a consistent positional encoding framework for both self-attention and state-space components. Using this Unified RoPE, we introduce TransXSSM, a hybrid architecture that coherently integrates the Transformer and SSM layers under this unified positional encoding scheme. At a 4K sequence length, TransXSSM exhibits training and inference speeds that are 42.3\% and 29.5\% faster, respectively, relative to standard Transformer models. It also delivers higher accuracy: under comparable settings, it surpasses a Transformer baseline by over 4\% on language modeling benchmarks.TransXSSM furthermore scales more effectively: TransXSSM-1.3B gains 7.22\% in average accuracy over its 320M version (versus about 6\% gains for equivalent Transformers or SSMs). Our results show that unified positional encoding resolves positional incompatibility in hybrid models, enabling efficient, high-performance long-context modeling.
- Abstract(参考訳): トランスフォーマーは長距離依存を捕捉する能力を示し、ステートスペースモデル(SSM)は線形時間シーケンスモデリングを促進する。
変換器は明示的な回転位置埋め込み(RoPE)に依存し、SSMは畳み込みによって暗黙的な位置表現を利用する。
このばらつきはしばしば不連続性と準最適性能を生じさせる。
この障害に対処するために、我々は統一された回転位置埋め込み(Unified RoPE)手法を提案し、これにより、自己注意と状態空間の両方のコンポーネントに対して一貫した位置符号化フレームワークを確立する。
この統一 RoPE を用いて,Transformer 層と SSM 層を協調的に統合したハイブリッドアーキテクチャ TransXSSM を導入する。
4Kシーケンス長では、TransXSSMは標準のTransformerモデルと比較して、それぞれ42.3\%と29.5\%のトレーニング速度と推論速度を示す。
TransXSSMは、より効果的にスケールする: TransXSSM-1.3Bは、320Mバージョンよりも平均精度が7.22\%向上する(同等のTransformerやSSMでは、約6\%のゲイン)。
この結果から,ハイブリッドモデルにおける位置整合性は統一的位置整合性によって解決され,効率的かつ高性能な長コンテキストモデリングが可能であることが示唆された。
関連論文リスト
- Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文 参考訳(メタデータ) (2025-01-23T03:34:14Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文 参考訳(メタデータ) (2024-02-01T21:44:11Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - Block-State Transformers [41.57016890030355]
状態空間モデル(SSM)は、長距離依存のモデリングを必要とするタスクに対して印象的な結果を示している。
本稿では,長距離コンテキスト化のためのSSMサブレイヤを内部的に結合したBST(Block-State Transformer)というハイブリッド層を提案する。
我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。
論文 参考訳(メタデータ) (2023-06-15T22:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。