論文の概要: mHC-SSM: Manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters
- arxiv url: http://arxiv.org/abs/2605.08300v1
- Date: Fri, 08 May 2026 11:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.547032
- Title: mHC-SSM: Manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters
- Title(参考訳): mHC-SSM:manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters
- Authors: Abdulvahap Mutlu, Şengül Doğan, Türker Tuncer,
- Abstract要約: 我々は,mHCスタイルの制約付きマルチストリーム残差トポロジが状態空間モデル(SSM)言語モデルに効果的に転送されるかどうかを検討する。
残差ストリームを複数の並列ストリームに拡張することにより,SSMブロックの周囲に静的mHC機構を実装した。
ストリーム毎のスケーリングと共有ボトルネックを通じて、軽量なストリーム特化キャパシティを追加するストリーム特化アダプタを導入します。
- 参考スコア(独自算出の注目度): 2.0149091262792767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Manifold-Constrained Hyper-Connections (mHC) introduce a stability-motivated variant of multi stream residual mixing by constraining residual stream mixing matrices to the manifold of doubly stochastic matrices via Sinkhorn-Knopp projection. In his work, we study whether mHC-style constrained multi-stream residual topology transfers effectively to state space model (SSM) language modeling. We implement a static mHC mechanism around an SSM block by expanding the residual stream into multiple parallel streams, aggregating streams into a single SSM input through simplex-constrained pre-mixing, scattering the SSM output back to streams through simplex-constrained post-mixing, and applying Sinkhorn-projected residual stream mixing at each layer. We further introduce stream-specialized adapters that add lightweight stream-specific capacity through a shared bottleneck with per-stream scaling, applied both before stream aggregation and after the SSM output prior to scattering. We evaluate baseline single-stream SSM, static mHC SSM, and mHC SSM with adapters on WikiText-2 using identical training settings and report checkpoint-based validation loss, perplexity, throughput, and peak GPU memory. Under the reported fair checkpoint evaluation, static mHC improves validation loss from 6.3507 to 6.2448 and reduces perplexity from 572.91 to 515.35, while mHC with adapters further improves validation loss to 6.1353 and perplexity to 461.88. These gains are accompanied by modest throughput reductions from 1025.52 to 964.81 and 938.90 tokens per second, and increased peak memory from 2365 MB to 2568 MB and 3092 MB. The results suggest that mHC-inspired constrained multi-stream residual mixing can yield measurable quality improvements in SSM language models and that stream-specialized adapter capacity can further enhance performance with predictable efficiency tradeoffs.
- Abstract(参考訳): Manifold-Constrained Hyper-Connections (mHC) は、Sinkhorn-Knoppプロジェクションを通した2つの確率行列の多様体に残留ストリーム混合行列を拘束することにより、多重ストリーム残差混合の安定性を動機づけた変種を導入する。
彼の研究で、mHCスタイルの制約付きマルチストリーム残差位相が状態空間モデル(SSM)言語モデリングに効果的に移行するかどうかを考察した。
我々は,SSMブロックの周囲の静的mHC機構を実装し,残ストリームを複数の並列ストリームに拡張し,SSM入力を単一SSM入力に集約し,SSM出力を単純なx制約後混合によりストリームに分散し,各層にシンクホーン投影した残ストリームを混合することにより,SSMブロックの静的mHC機構を実装した。
さらに,ストリームアグリゲーション前と散乱前のSSM出力後の両方に適用し,ストリーム毎のスケーリングによる共有ボトルネックを通じて,軽量なストリーム特化キャパシティを付加するストリーム特化アダプタについても紹介する。
WikiText-2のアダプタを用いて,ベースライン単ストリームSSM,静的mHC SSM,mHC SSMを同一のトレーニング設定を用いて評価し,チェックポイントベースの検証損失,パープレキシティ,スループット,ピークGPUメモリを報告する。
報告された公正チェックポイント評価では、静的mHCはバリデーション損失を6.3507から6.2448に改善し、パープレキシティを72.91から515.35に低減し、アダプタ付きmHCは6.1353に、パープレキシティを461.88に改善した。
これらのゲインには1025.52から964.81、938.90トークン毎秒のスループット低下が伴い、ピークメモリは2365MBから2568MB、3092MBに増加した。
以上の結果から,mHCにインスパイアされた制約されたマルチストリーム残差混合は,SSM言語モデルにおいて測定可能な品質向上をもたらすことが示唆され,ストリーム特化アダプタ容量は,予測可能な効率トレードオフによってさらに性能を向上させることが示唆された。
関連論文リスト
- Scaling State-Space Models on Multiple GPUs with Tensor Parallelism [0.24148976266903474]
選択状態空間モデル(SSM)は、大規模言語モデルにとって急速に魅力的なバックボーンとなっている。
しかし、デプロイメントでは、その推論性能は単一のGPUのメモリ容量、帯域幅、レイテンシ制限によって制限されることが多い。
本稿では,3つの実践的技術的課題に対処する,選択的SSM推論のための通信効率のよいTP設計法を提案する。
論文 参考訳(メタデータ) (2026-02-24T17:47:54Z) - JPmHC Dynamical Isometry via Orthogonal Hyper-Connections [2.4311915994390403]
JPmHCは、n個の並列ストリームに作用するトレーニング可能な線形ミキサーでIDスキップを置き換えるフレームワークである。
緩やかな病理を予防し、安定性を高める。
両眼的ベースラインに比べて、より高速な収束、高い精度、計算コストの低減を実現している。
論文 参考訳(メタデータ) (2026-02-20T16:06:01Z) - EqDeepRx: Learning a Scalable MIMO Receiver [6.732584013520367]
本稿では,実践的な深層学習支援マルチインプットマルチアウトプット(MIMO)受信機であるEqDeepRxについて述べる。
レシーバモデルのコアは、各空間ストリームまたは層で独立して動作する共有重み検出NNである。
5G/6G準拠のエンドツーエンドシミュレーションでは,複数チャネルシナリオ,パイロットパターン,セル間干渉条件が改善し,スペクトル効率が向上した。
論文 参考訳(メタデータ) (2026-02-12T11:22:30Z) - JTok: On Token Embedding as another Axis of Scaling Law via Joint Token Self-modulation [46.64215658042213]
補助埋め込みテーブルから得られる変調ベクトルを用いてトランスフォーマー層を拡大するジョイント・トケン(JTok)とジョイント・トケン(JTok-M)の混合を導入する。
これらのベクトルは、軽量な要素演算によってバックボーンを変調し、無視可能なFLOPのオーバーヘッドを発生させる。
我々のアプローチは、検証損失を継続的に減らし、ダウンストリームタスクのパフォーマンスを大幅に改善します。
論文 参考訳(メタデータ) (2026-01-31T16:15:18Z) - Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models [59.6491828112519]
MLLM(Multimodal large language model)は、様々なアプリケーションにまたがる強力な機能を示す。
MLLMは、その特徴表現を歪め、誤った予測を誘発する敵の摂動に弱い。
本稿では,MLLMの特徴表現レベルにおいて,信頼性の高いロバスト性保証を提供する汎用フレームワークであるFeature-space Smoothing(FS)を提案する。
論文 参考訳(メタデータ) (2026-01-22T18:52:21Z) - Gaussian Mixture Flow Matching Models [63.092956669059824]
拡散モデルは正規分布をガウス平均として近似し,その平均を推定する一方,フローマッチングモデルはガウス平均をフロー速度としてパラメータ化する。
離散化誤差による数段階のサンプリングでは性能が低下し、分類器フリーガイダンス(CFG)では過飽和色が生じる傾向にある。
本稿では,CFGの過飽和問題を緩和し,画像生成品質を向上する新しい確率的ガイダンス手法を提案する。
論文 参考訳(メタデータ) (2025-04-07T17:59:42Z) - MPQ-DM: Mixed Precision Quantization for Extremely Low Bit Diffusion Models [37.061975191553]
本稿では,拡散モデルのための混合精度量子化法MPQ-DMを提案する。
重み付き外周波による量子化誤差を軽減するために,外周波混合量子化手法を提案する。
時間ステップを横断する表現を頑健に学習するために,時間-平滑な関係蒸留方式を構築した。
論文 参考訳(メタデータ) (2024-12-16T08:31:55Z) - Consistency Trajectory Models: Learning Probability Flow ODE Trajectory of Diffusion [56.38386580040991]
Consistency Trajectory Model (CTM) は Consistency Models (CM) の一般化である
CTMは、対戦訓練とスコアマッチング損失を効果的に組み合わせることで、パフォーマンスを向上させる。
CMとは異なり、CTMのスコア関数へのアクセスは、確立された制御可能/条件生成メソッドの採用を合理化することができる。
論文 参考訳(メタデータ) (2023-10-01T05:07:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。