Fugu-MT 論文翻訳(概要): TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding

論文の概要: TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding

arxiv url: http://arxiv.org/abs/2506.09507v2
Date: Thu, 12 Jun 2025 08:58:42 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 13:18:14.188815
Title: TransXSSM: A Hybrid Transformer State Space Model with Unified Rotary Position Embedding
Title（参考訳）: TransXSSM: 一体型回転位置埋め込みを用いたハイブリッド変圧器状態空間モデル
Authors: Bingheng Wu, Jingze Shi, Yifan Wu, Nan Tang, Yuyu Luo,
Abstract要約: 本稿では,Transformer層とSSM層を協調的に統合したハイブリッドアーキテクチャであるTransXSSMを紹介する。 4Kシーケンス長では、TransXSSMは標準のTransformerモデルと比較してそれぞれ42.3%と29.5%のトレーニング速度と推論速度を示す。この結果から,ハイブリッドモデルにおける位置整合性は統一的位置整合性によって解決され,効率的かつ高性能な長コンテキストモデリングが可能であることが示唆された。
参考スコア（独自算出の注目度）: 19.42637769220759
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers exhibit proficiency in capturing long-range dependencies, whereas State Space Models (SSMs) facilitate linear-time sequence modeling. Notwithstanding their synergistic potential, the integration of these architectures presents a significant challenge, primarily attributable to a fundamental incongruity in their respective positional encoding mechanisms: Transformers rely on explicit Rotary Position Embeddings (RoPE), while SSMs leverage implicit positional representations via convolutions. This divergence often precipitates discontinuities and suboptimal performance. To address this impediment, we propose a unified rotary position embedding (Unified RoPE) methodology, thereby establishing a consistent positional encoding framework for both self-attention and state-space components. Using this Unified RoPE, we introduce TransXSSM, a hybrid architecture that coherently integrates the Transformer and SSM layers under this unified positional encoding scheme. At a 4K sequence length, TransXSSM exhibits training and inference speeds that are 42.3\% and 29.5\% faster, respectively, relative to standard Transformer models. It also delivers higher accuracy: under comparable settings, it surpasses a Transformer baseline by over 4\% on language modeling benchmarks.TransXSSM furthermore scales more effectively: TransXSSM-1.3B gains 7.22\% in average accuracy over its 320M version (versus about 6\% gains for equivalent Transformers or SSMs). Our results show that unified positional encoding resolves positional incompatibility in hybrid models, enabling efficient, high-performance long-context modeling.
Abstract（参考訳）: トランスフォーマーは長距離依存を捕捉する能力を示し、ステートスペースモデル(SSM)は線形時間シーケンスモデリングを促進する。変換器は明示的な回転位置埋め込み(RoPE)に依存し、SSMは畳み込みによって暗黙的な位置表現を利用する。このばらつきはしばしば不連続性と準最適性能を生じさせる。この障害に対処するために、我々は統一された回転位置埋め込み(Unified RoPE)手法を提案し、これにより、自己注意と状態空間の両方のコンポーネントに対して一貫した位置符号化フレームワークを確立する。この統一 RoPE を用いて,Transformer 層と SSM 層を協調的に統合したハイブリッドアーキテクチャ TransXSSM を導入する。 4Kシーケンス長では、TransXSSMは標準のTransformerモデルと比較して、それぞれ42.3\%と29.5\%のトレーニング速度と推論速度を示す。 TransXSSMは、より効果的にスケールする: TransXSSM-1.3Bは、320Mバージョンよりも平均精度が7.22\%向上する(同等のTransformerやSSMでは、約6\%のゲイン)。この結果から,ハイブリッドモデルにおける位置整合性は統一的位置整合性によって解決され,効率的かつ高性能な長コンテキストモデリングが可能であることが示唆された。

関連論文リスト

Characterizing State Space Model (SSM) and SSM-Transformer Hybrid Language Model Performance with Long Context Length [2.029073851107784]
ローカルデバイス上で連続した長文入力を処理できるマシンインテリジェンスへの需要は急速に伸びている。従来のTransformerアーキテクチャは効率が悪く、これらのタスクには使用できないことが多い。これにより、ステートスペースモデル(SSM)やハイブリッドといった、ほぼ直線的なスケーリングを約束する新しいアーキテクチャへのパラダイムシフトが加速した。
論文参考訳（メタデータ） (2025-07-16T17:28:40Z)
Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving [1.9508863993381267]
トランスフォーマーは、今日のLarge Language Models(LLM)の原動力であり、そのパフォーマンスと汎用性の基盤となっている。これに対し、アルゴリズムコミュニティはステートスペースモデル(SSM)、線形アテンション、リカレントニューラルネットワーク(RNN)などの代替アーキテクチャを模索している。
論文参考訳（メタデータ） (2025-07-14T11:40:17Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
TransMamba: Flexibly Switching between Transformer and Mamba [43.20757187382281]
本稿ではTransformerとMambaを統合するフレームワークであるTransMambaを提案する。本研究では,TransMambaがベースラインよりも優れたトレーニング効率と性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-31T13:26:24Z)
Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文参考訳（メタデータ） (2025-01-23T03:34:14Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文参考訳（メタデータ） (2024-08-01T15:14:10Z)
Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文参考訳（メタデータ） (2024-08-01T02:49:58Z)
Repeat After Me: Transformers are Better than State Space Models at Copying [53.47717661441142]
一般化された状態空間モデルは、推論時間効率の観点からは有望であるが、入力コンテキストからのコピーを必要とするタスクのトランスフォーマーモデルと比較して限定的であることを示す。
論文参考訳（メタデータ） (2024-02-01T21:44:11Z)
Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。 CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文参考訳（メタデータ） (2023-08-13T06:12:00Z)
Block-State Transformers [41.57016890030355]
状態空間モデル(SSM)は、長距離依存のモデリングを必要とするタスクに対して印象的な結果を示している。本稿では,長距離コンテキスト化のためのSSMサブレイヤを内部的に結合したBST(Block-State Transformer)というハイブリッド層を提案する。我々のモデルは言語モデリングの難易度において類似のTransformerベースのアーキテクチャよりも優れており、より長いシーケンスに一般化できることを示す。
論文参考訳（メタデータ） (2023-06-15T22:48:08Z)
Adaptive Split-Fusion Transformer [90.04885335911729]
本稿では,適応重みによる畳み込みと注目の分岐を異なる方法で扱うための適応分割変換器(ASF-former)を提案する。 ImageNet-1Kのような標準ベンチマークの実験では、我々のASFフォーマーはCNN、トランスフォーマー、ハイブリッドパイロットを精度で上回っている。
論文参考訳（メタデータ） (2022-04-26T10:00:28Z)
Stable, Fast and Accurate: Kernelized Attention with Relative Positional Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文参考訳（メタデータ） (2021-06-23T17:51:26Z)
Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-02-09T10:55:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。