Fugu-MT 論文翻訳(概要): mHC-SSM: Manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters

論文の概要: mHC-SSM: Manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters

arxiv url: http://arxiv.org/abs/2605.08300v1
Date: Fri, 08 May 2026 11:37:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-12 23:28:49.547032
Title: mHC-SSM: Manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters
Title（参考訳）: mHC-SSM:manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters
Authors: Abdulvahap Mutlu, Şengül Doğan, Türker Tuncer,
Abstract要約: 我々は,mHCスタイルの制約付きマルチストリーム残差トポロジが状態空間モデル(SSM)言語モデルに効果的に転送されるかどうかを検討する。残差ストリームを複数の並列ストリームに拡張することにより,SSMブロックの周囲に静的mHC機構を実装した。ストリーム毎のスケーリングと共有ボトルネックを通じて、軽量なストリーム特化キャパシティを追加するストリーム特化アダプタを導入します。
参考スコア（独自算出の注目度）: 2.0149091262792767
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Manifold-Constrained Hyper-Connections (mHC) introduce a stability-motivated variant of multi stream residual mixing by constraining residual stream mixing matrices to the manifold of doubly stochastic matrices via Sinkhorn-Knopp projection. In his work, we study whether mHC-style constrained multi-stream residual topology transfers effectively to state space model (SSM) language modeling. We implement a static mHC mechanism around an SSM block by expanding the residual stream into multiple parallel streams, aggregating streams into a single SSM input through simplex-constrained pre-mixing, scattering the SSM output back to streams through simplex-constrained post-mixing, and applying Sinkhorn-projected residual stream mixing at each layer. We further introduce stream-specialized adapters that add lightweight stream-specific capacity through a shared bottleneck with per-stream scaling, applied both before stream aggregation and after the SSM output prior to scattering. We evaluate baseline single-stream SSM, static mHC SSM, and mHC SSM with adapters on WikiText-2 using identical training settings and report checkpoint-based validation loss, perplexity, throughput, and peak GPU memory. Under the reported fair checkpoint evaluation, static mHC improves validation loss from 6.3507 to 6.2448 and reduces perplexity from 572.91 to 515.35, while mHC with adapters further improves validation loss to 6.1353 and perplexity to 461.88. These gains are accompanied by modest throughput reductions from 1025.52 to 964.81 and 938.90 tokens per second, and increased peak memory from 2365 MB to 2568 MB and 3092 MB. The results suggest that mHC-inspired constrained multi-stream residual mixing can yield measurable quality improvements in SSM language models and that stream-specialized adapter capacity can further enhance performance with predictable efficiency tradeoffs.
Abstract（参考訳）: Manifold-Constrained Hyper-Connections (mHC) は、Sinkhorn-Knoppプロジェクションを通した2つの確率行列の多様体に残留ストリーム混合行列を拘束することにより、多重ストリーム残差混合の安定性を動機づけた変種を導入する。彼の研究で、mHCスタイルの制約付きマルチストリーム残差位相が状態空間モデル(SSM)言語モデリングに効果的に移行するかどうかを考察した。我々は,SSMブロックの周囲の静的mHC機構を実装し,残ストリームを複数の並列ストリームに拡張し,SSM入力を単一SSM入力に集約し,SSM出力を単純なx制約後混合によりストリームに分散し,各層にシンクホーン投影した残ストリームを混合することにより,SSMブロックの静的mHC機構を実装した。さらに,ストリームアグリゲーション前と散乱前のSSM出力後の両方に適用し,ストリーム毎のスケーリングによる共有ボトルネックを通じて,軽量なストリーム特化キャパシティを付加するストリーム特化アダプタについても紹介する。 WikiText-2のアダプタを用いて,ベースライン単ストリームSSM,静的mHC SSM,mHC SSMを同一のトレーニング設定を用いて評価し,チェックポイントベースの検証損失,パープレキシティ,スループット,ピークGPUメモリを報告する。報告された公正チェックポイント評価では、静的mHCはバリデーション損失を6.3507から6.2448に改善し、パープレキシティを72.91から515.35に低減し、アダプタ付きmHCは6.1353に、パープレキシティを461.88に改善した。これらのゲインには1025.52から964.81、938.90トークン毎秒のスループット低下が伴い、ピークメモリは2365MBから2568MB、3092MBに増加した。以上の結果から,mHCにインスパイアされた制約されたマルチストリーム残差混合は,SSM言語モデルにおいて測定可能な品質向上をもたらすことが示唆され,ストリーム特化アダプタ容量は,予測可能な効率トレードオフによってさらに性能を向上させることが示唆された。

論文の概要: mHC-SSM: Manifold-Constrained Hyper-Connections for State Space Language Models with Stream-Specialized Adapters

関連論文リスト