論文の概要: State Stream Transformer (SST) V2: Parallel Training of Nonlinear Recurrence for Latent Space Reasoning
- arxiv url: http://arxiv.org/abs/2605.00206v1
- Date: Thu, 30 Apr 2026 20:30:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.745068
- Title: State Stream Transformer (SST) V2: Parallel Training of Nonlinear Recurrence for Latent Space Reasoning
- Title(参考訳): 状態流変圧器(SST)V2:遅延空間共振用非線形共振器の並列訓練
- Authors: Thea Aviss,
- Abstract要約: 電流変圧器は、位置間のリッチな潜伏残差ストリームを破棄し、新しい位置ごとに潜伏推論コンテキストを再構築する。
State Stream Transformer (SST) V2は、連続潜時空間におけるパラメータ効率の推論を可能にする。
2パスの並列トレーニング手順は、繰り返しの逐次依存性を解決し、計算効率のトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current transformers discard their rich latent residual stream between positions, reconstructing latent reasoning context at each new position and leaving potential reasoning capacity untapped. The State Stream Transformer (SST) V2 enables parameter-efficient reasoning in continuous latent space through an FFN-driven nonlinear recurrence at each decoder layer, where latent states are streamed horizontally across the full sequence via a learned blend. This same mechanism supports continuous latent deliberation per position at inference time, dedicating additional FLOPs to exploring abstract reasoning before committing to a token. A two-pass parallel training procedure resolves the sequential dependency of the recurrence to allow compute-efficient training. Hidden state analysis shows the state stream facilitates reasoning through exploration of distinct semantic basins in continuous latent space, where transitions at content-dependent positions move the model into a substantially different Bayesian posterior, directly influencing the latent space at future positions. We also find, via a learned probe, that at the first generated token position, the latent state already predicts whether the eventual answer will survive or break under additional latent computation for every subsequent position. Co-trained into an existing 27B backbone using only a small dataset of GSM8K examples, the SST delivers a +15.15 point gain over a fine-tuning-matched baseline on out-of-distribution GPQA-Diamond and cuts that same baseline's remaining GSM8K errors by 46%, together showing that the reasoning improvement is attributable to the architectural mechanism rather than scale or training data. On GPQA-Diamond, the resulting 27B SST also achieves higher accuracy than several larger open-weight and proprietary systems, including open-weight models up to 25 times larger.
- Abstract(参考訳): 電流変圧器は、位置間のリッチな潜伏残差ストリームを破棄し、新しい位置ごとに潜伏推理コンテキストを再構築し、潜在的な推理能力を未然に残す。
State Stream Transformer (SST) V2は、各デコーダ層におけるFFN駆動の非線形再帰を通じて、連続潜時空間におけるパラメータ効率の推論を可能にする。
このメカニズムは、トークンにコミットする前に抽象的推論を探索するために追加のFLOPを割り当てる。
2パスの並列トレーニング手順は、繰り返しの逐次依存性を解決し、計算効率のトレーニングを可能にする。
隠れた状態解析は、状態の流れが連続的な潜在空間における異なる意味的盆地の探索を通して推論を促進することを示している。
また、学習されたプローブを通して、最初に生成されたトークン位置において、潜在状態は、後続のすべての位置について、最終的な答えが生存するか、追加の潜伏計算の下で破られるかを予測している。
SSTはGSM8Kの小さなデータセットのみを使用して既存の27Bバックボーンにトレーニングされ、GPQA-ダイアモンドの微調整されたベースラインに+15.15ポイントのゲインを与え、同じベースラインの残りのGSM8Kエラーを46%削減した。
GPQA-ダイアモンドでは、結果の27B SSTは、最大25倍のオープンウェイトモデルを含むいくつかの大きなオープンウェイトおよびプロプライエタリシステムよりも高い精度を達成する。
関連論文リスト
- Posterior Augmented Flow Matching [64.1559809786948]
後拡張フローマッチング(PAFM)はフローマッチング(FM)の一般化である
PAFMは、異なるモデルスケールで最大3.4FID50KでFMよりも改善されていることを示す。
論文 参考訳(メタデータ) (2026-05-01T17:59:59Z) - SSR: A Training-Free Approach for Streaming 3D Reconstruction [53.19807901585702]
自己表現型シーケンス規則化(Self Expressive Sequence Regularization、SSR)は、推論中にグラスマン列の正則性を強制するプラグアンドプレイ演算子である。
本研究では,SSRが連続的にドリフトを低減し,複数のストリーミング3D再構成タスクにおける再構成品質を向上させることを示す。
論文 参考訳(メタデータ) (2026-03-16T02:55:14Z) - Closed-Loop Transformers: Autoregressive Modeling as Iterative Latent Equilibrium [0.6820746164515952]
閉ループ予測の原理を導入し、自己整合平衡に達するまで、モデルが反復的に潜在表現を洗練することを要求する。
この原理をEquilibrium Transformerとしてインスタンス化し,標準トランス層をEquilibrium Refinement Moduleで拡張する。
バイナリパリティタスクに関する予備実験では、チャレンジシーケンスの平均改善率は+3.28%で、標準トランスフォーマーがランダムなパフォーマンスに近づくと+8.07%に達する。
論文 参考訳(メタデータ) (2025-11-26T20:02:59Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - Bidirectional Feature-aligned Motion Transformation for Efficient Dynamic Point Cloud Compression [97.66080040613726]
特徴空間における動きを暗黙的にモデル化する双方向特徴整合運動変換(Bi-FMT)フレームワークを提案する。
Bi-FMTは、時間的に一貫した潜在表現を生成するために、過去と将来の両方のフレームで機能を調整する。
圧縮効率とランタイムの両方において, Bi-FMT が D-DPCC と AdaDPCC を上回っていることを示す。
論文 参考訳(メタデータ) (2025-09-18T03:51:06Z) - Exact full-RSB SAT/UNSAT transition in infinitely wide two-layer neural networks [0.0]
我々は,典型的な状態の重なり合いの有無にかかわらず,グラディエントDescentはキャパシティに到達できないことを示す。
この発見は勾配に基づくアルゴリズムが極めて非定型な状態に偏っていることを示唆している。
論文 参考訳(メタデータ) (2024-10-09T09:41:28Z) - Machine learning in and out of equilibrium [58.88325379746631]
我々の研究は、統計物理学から適応したフォッカー・プランク法を用いて、これらの平行線を探索する。
我々は特に、従来のSGDでは平衡が切れている長期的限界におけるシステムの定常状態に焦点を当てる。
本稿では,ミニバッチの置き換えを伴わない新しいランゲヴィンダイナミクス(SGLD)を提案する。
論文 参考訳(メタデータ) (2023-06-06T09:12:49Z) - Implicit Bias of Gradient Descent for Logistic Regression at the Edge of
Stability [69.01076284478151]
機械学習の最適化において、勾配降下(GD)はしばしば安定性の端(EoS)で動く
本稿では,EoS系における線形分離可能なデータに対するロジスティック回帰のための定数段差GDの収束と暗黙バイアスについて検討する。
論文 参考訳(メタデータ) (2023-05-19T16:24:47Z) - Dimension-reduced KRnet maps for high-dimensional inverse problems [0.0]
高次元逆問題に対する次元還元KRnetマップアプローチ(DR-KRnet)を提案する。
提案手法は,データ駆動型VAE前駆体と潜伏変数後部密度近似の2つの主成分から構成される。
論文 参考訳(メタデータ) (2023-03-01T15:16:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。