Fugu-MT 論文翻訳(概要): Sequential-Parallel Duality in Prefix Scannable Models

論文の概要: Sequential-Parallel Duality in Prefix Scannable Models

arxiv url: http://arxiv.org/abs/2506.10918v1
Date: Thu, 12 Jun 2025 17:32:02 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.869334
Title: Sequential-Parallel Duality in Prefix Scannable Models
Title（参考訳）: 修正スカンナブルモデルにおける逐次並列双対性
Authors: Morris Yau, Sharut Gupta, Valerie Engelmayer, Kazuki Irie, Stefanie Jegelka, Jacob Andreas,
Abstract要約: 近年では Gated Linear Attention (GLA) や Mamba など様々なモデルが開発されている。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか?
参考スコア（独自算出の注目度）: 68.39855814099997
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern neural sequence models are designed to meet the dual mandate of parallelizable training and fast sequential inference. Recent developments have given rise to various models, such as Gated Linear Attention (GLA) and Mamba, that achieve such ``sequential-parallel duality.'' This raises a natural question: can we characterize the full class of neural sequence models that support near-constant-time parallel evaluation and linear-time, constant-space sequential inference? We begin by describing a broad class of such models -- state space models -- as those whose state updates can be computed using the classic parallel prefix scan algorithm with a custom associative aggregation operator. We then define a more general class, Prefix-Scannable Models (PSMs), by relaxing the state aggregation operator to allow arbitrary (potentially non-associative) functions such as softmax attention. This generalization unifies many existing architectures, including element-wise RNNs (e.g., Mamba) and linear transformers (e.g., GLA, Mamba2, mLSTM), while also introducing new models with softmax-like operators that achieve O(1) amortized compute per token and log(N) memory for sequence length N. We empirically evaluate such models on illustrative small-scale language modeling and canonical synthetic tasks, including state tracking and associative recall. Empirically, we find that PSMs retain the expressivity of transformer-based architectures while matching the inference efficiency of state space models -- in some cases exhibiting better length generalization than either.
Abstract（参考訳）: 現代のニューラルシーケンスモデルは、並列化可能なトレーニングと高速なシーケンシャル推論という2つの課題を満たすように設計されている。近年の進歩は、Gated Linear Attention (GLA) や Mamba など、このような 'sequential-parallel duality' を実現する様々なモデルを生み出している。ニアコンスタント時間並列評価と線形時間、定数空間シーケンシャル推論をサポートするニューラルネットワークモデルの全クラスを特徴付けることができるだろうか? まず、従来の並列プレフィックススキャンアルゴリズムと独自の連想集約演算子を使って、状態更新を計算できるような、そのようなモデルの幅広いクラス、すなわち状態空間モデルについて説明する。次に、より一般的なクラスであるprefix-Scannable Models (PSMs) を定義し、状態集約演算子を緩和して、ソフトマックスアテンションのような任意の(潜在的に非連想的な)関数を許容する。この一般化は、要素ワイドRNN(例:GLA、Mamba2、mLSTM)や線形変換器(例:GLA、Mamba2、mLSTM)を含む既存のアーキテクチャを統一するとともに、O(1)アモータライズされたトークン単位の計算とシーケンス長Nのログ(N)メモリを実現するソフトマックスのような演算子を用いた新しいモデルを導入している。経験的に、PSMは状態空間モデルの推論効率と一致しながら、トランスフォーマーベースのアーキテクチャの表現性を保っている。

関連論文リスト

Bridging Expressivity and Scalability with Adaptive Unitary SSMs [4.61803711540329]
適応ユニタリ状態空間モデル(AUSSM)は、一様進化と高表現力を達成するために、スキュー対称で入力依存の再現性を持つ新しいSSMのクラスである。この結果から,適応的ユニタリ再帰は,記号的および連続的シーケンスモデリングの両方において,強力かつ効率的なアルゴリズムバイアスを与えることが示された。
論文参考訳（メタデータ） (2025-07-07T17:47:16Z)
MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間列を表現するために設計された新しい深部力学モデルを提案する。マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。振動系, ビデオ, 実世界の状態系列(MuJoCo)の実験結果から, 学習可能なエネルギーベース先行モデルの方が既存のモデルより優れていることが示された。
論文参考訳（メタデータ） (2024-09-05T18:14:22Z)
State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文参考訳（メタデータ） (2024-06-12T17:06:07Z)
Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-12-01T18:01:34Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Long Sequence Hopfield Memory [32.28395813801847]
シーケンスメモリは、エージェントが複雑な刺激や行動のシーケンスをエンコードし、保存し、取り出すことを可能にする。非線形相互作用項を導入し、パターン間の分離を強化する。このモデルを拡張して、状態遷移間の変動タイミングでシーケンスを格納する。
論文参考訳（メタデータ） (2023-06-07T15:41:03Z)
Low-Rank Constraints for Fast Inference in Structured Models [110.38427965904266]
この研究は、大規模構造化モデルの計算とメモリの複雑さを低減するための単純なアプローチを示す。言語モデリング,ポリフォニック・ミュージック・モデリング,教師なし文法帰納法,ビデオ・モデリングのためのニューラルパラメータ構造モデルを用いた実験により,我々の手法は大規模状態空間における標準モデルの精度と一致することを示した。
論文参考訳（メタデータ） (2022-01-08T00:47:50Z)
Combining Recurrent, Convolutional, and Continuous-time Models with Linear State-Space Layers [21.09321438439848]
一般化する制御系にインスパイアされた単純なシーケンスモデルを導入する。 LSSLモデルは上記の3つのモデルのファミリーと密接な関係を示し、その強みを継承する。例えば、畳み込みを連続時間に一般化し、共通のRNN-1を説明し、時間スケール適応のようなNDEの特徴を共有する。
論文参考訳（メタデータ） (2021-10-26T19:44:53Z)
Structured Reordering for Modeling Latent Alignments in Sequence Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文参考訳（メタデータ） (2021-06-06T21:53:54Z)
Tensor Networks for Probabilistic Sequence Modeling [7.846449972735859]
シーケンスデータの確率的モデリングには,一様行列積状態(u-MPS)モデルを用いる。次に、訓練されたu-MPSに対して、様々な条件分布から効率的にサンプリングできる新しい生成アルゴリズムを提案する。合成テキストデータと実テキストデータを用いたシーケンスモデリング実験は、U-MPSが様々なベースラインより優れていることを示す。
論文参考訳（メタデータ） (2020-03-02T17:16:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。