論文の概要: PRISM: Parallel Residual Iterative Sequence Model
- arxiv url: http://arxiv.org/abs/2602.10796v1
- Date: Wed, 11 Feb 2026 12:39:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.874191
- Title: PRISM: Parallel Residual Iterative Sequence Model
- Title(参考訳): PRISM:並列残差反復列モデル
- Authors: Jie Jiang, Ke Cheng, Xin Xu, Mengyang Pang, Tianhao Lu, Jiaheng Li, Yue Liu, Yuan Wang, Jun Zhang, Huan Yu, Zhouchen Lin,
- Abstract要約: 我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
この定式化が Rank-$L$ の蓄積を達成することを証明し、更新多様体を単一ステップの Rank-$1$ ボトルネックを超えて構造的に拡張する。
- 参考スコア(独自算出の注目度): 52.26239951489612
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative sequence modeling faces a fundamental tension between the expressivity of Transformers and the efficiency of linear sequence models. Existing efficient architectures are theoretically bounded by shallow, single-step linear updates, while powerful iterative methods like Test-Time Training (TTT) break hardware parallelism due to state-dependent gradients. We propose PRISM (Parallel Residual Iterative Sequence Model) to resolve this tension. PRISM introduces a solver-inspired inductive bias that captures key structural properties of multi-step refinement in a parallelizable form. We employ a Write-Forget Decoupling strategy that isolates non-linearity within the injection operator. To bypass the serial dependency of explicit solvers, PRISM utilizes a two-stage proxy architecture: a short-convolution anchors the initial residual using local history energy, while a learned predictor estimates the refinement updates directly from the input. This design distills structural patterns associated with iterative correction into a parallelizable feedforward operator. Theoretically, we prove that this formulation achieves Rank-$L$ accumulation, structurally expanding the update manifold beyond the single-step Rank-$1$ bottleneck. Empirically, it achieves comparable performance to explicit optimization methods while achieving 174x higher throughput.
- Abstract(参考訳): 生成シーケンスモデリングは、トランスフォーマーの表現性と線形シーケンスモデルの効率の基本的な緊張に直面している。
既存の効率的なアーキテクチャは、浅いシングルステップの線形更新によって理論的に境界付けられ、テスト時間トレーニング(TTT)のような強力な反復的手法は、状態依存の勾配によってハードウェアの並列性を損なう。
我々はこの緊張を解決するためにPRISM(Parallel Residual Iterative Sequence Model)を提案する。
PRISMは、パラレル化可能な形で多段階精製の重要な構造特性を捉える、ソルバに着想を得た帰納バイアスを導入している。
我々は、インジェクション演算子内の非線形性を分離するWrite-Forget Decoupling戦略を採用する。
PRISMは2段階のプロキシアーキテクチャを用いて、局所的な履歴エネルギーを用いて初期残余をアンカーし、学習した予測器は入力から直接精製更新を推定する。
この設計は反復補正に伴う構造パターンを並列化可能なフィードフォワード演算子に蒸留する。
理論的には、この定式化がRanc-L$の蓄積を達成することを証明し、更新多様体を単一ステップのRanc-1$のボトルネックを超えて構造的に拡張する。
経験的には、174倍高いスループットを達成しながら、明示的な最適化手法に匹敵するパフォーマンスを達成する。
関連論文リスト
- Gated Associative Memory: A Parallel O(N) Architecture for Efficient Sequence Modeling [0.0]
Gated Associative Memory (GAM) ネットワークは、シーケンスモデリングのための新しい完全に並列なアーキテクチャである。
我々はGAMをゼロから実装し、標準的なトランスフォーマーモデルと現代的な線形時間ベースラインに対して厳密な比較分析を行う。
我々の実験は、GAMは一貫して高速で、トレーニング速度のベースラインの両方を上回り、全てのデータセットで優れた、または競争力のある最終バリデーションの難しさを達成できることを示した。
論文 参考訳(メタデータ) (2025-08-30T20:59:46Z) - Inference Acceleration of Autoregressive Normalizing Flows by Selective Jacobi Decoding [12.338918067455436]
正規化フローは、理論的厳密性、分析的対数類似性、エンドツーエンドトレーニングなどの利点を持つ有望な生成モデルである。
近年の進歩は自己回帰モデリングを活用し、表現力と生成品質を大幅に向上させた。
並列反復最適化により自己回帰推論を高速化する選択的ヤコビ復号法(SeJD)を提案する。
論文 参考訳(メタデータ) (2025-05-30T16:53:15Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - State Soup: In-Context Skill Learning, Retrieval and Mixing [22.485700977542127]
新しいタイプのゲート線形リカレントニューラルネットワークは、様々なシーケンスモデリング問題に対して最先端の性能に達した。
ここでは、パラメータによるモデルマージの成功に触発された、ステートフルシーケンスモデルの別の利点について検討する。
微調整学習と文脈内学習の並列性に基づいて、内部状態を記憶、検索、線形結合が可能なタスクベクトルとして扱うことができるかどうかを検討する。
論文 参考訳(メタデータ) (2024-06-12T17:06:07Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Self-Reflective Variational Autoencoder [21.054722609128525]
変分オートエンコーダ(VAE)は潜在変数生成モデルを学習するための強力なフレームワークである。
自己回帰推論(self-reflective inference)と呼ばれるソリューションを導入します。
実験では, 後部と後部を正確に一致させることの明確な利点を実証的に示す。
論文 参考訳(メタデータ) (2020-07-10T05:05:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。