論文の概要: KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices
- arxiv url: http://arxiv.org/abs/2601.21579v1
- Date: Thu, 29 Jan 2026 11:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.775718
- Title: KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices
- Title(参考訳): KromHC: Kronecker-Product Residual Matricesを用いたManifold-Constrained Hyper-Connections
- Authors: Wuyang Zhou, Yuxuan Gu, Giorgos Iacovides, Danilo Mandic,
- Abstract要約: 本研究は, 残留行列の小さいアンダーラインKronecker生成物を用いて, アンダーラインmHCの残留行列をパラメトリゼーションするtextbfKromHCを提案する。
実験により、KromHCは、訓練可能なパラメータを著しく少なくしながら、最先端のmHC変種にマッチし、さらに優れることを示した。
- 参考スコア(独自算出の注目度): 6.968486021891596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Hyper-Connections (HC) in neural networks (NN) has also highlighted issues related to its training instability and restricted scalability. The Manifold-Constrained Hyper-Connections (mHC) mitigate these challenges by projecting the residual connection space onto a Birkhoff polytope, however, it faces two issues: 1) its iterative Sinkhorn-Knopp (SK) algorithm does not always yield exact doubly stochastic residual matrices; 2) mHC incurs a prohibitive $\mathcal{O}(n^3C)$ parameter complexity with $n$ as the width of the residual stream and $C$ as the feature dimension. The recently proposed mHC-lite reparametrizes the residual matrix via the Birkhoff-von-Neumann theorem to guarantee double stochasticity, but also faces a factorial explosion in its parameter complexity, $\mathcal{O} \left( nC \cdot n! \right)$. To address both challenges, we propose \textbf{KromHC}, which uses the \underline{Kro}necker products of smaller doubly stochastic matrices to parametrize the residual matrix in \underline{mHC}. By enforcing manifold constraints across the factor residual matrices along each mode of the tensorized residual stream, KromHC guarantees exact double stochasticity of the residual matrices while reducing parameter complexity to $\mathcal{O}(n^2C)$. Comprehensive experiments demonstrate that KromHC matches or even outperforms state-of-the-art (SOTA) mHC variants, while requiring significantly fewer trainable parameters. The code is available at \texttt{https://github.com/wz1119/KromHC}.
- Abstract(参考訳): ニューラルネットワーク(NN)におけるハイパーコネクション(HC)の成功は、トレーニングの不安定性と制限されたスケーラビリティに関する問題も強調している。
Manifold-Constrained Hyper-Connection (mHC) はバーコフポリトープに残余接続空間を投影することによってこれらの問題を緩和するが、これは2つの問題に直面している。
1) Sinkhorn-Knopp (SK) アルゴリズムは必ずしも2倍の確率的残留行列を生成するとは限らない。
2 mHCは禁じられる$\mathcal{O}(n^3C)$パラメータ複雑性を発生させ、残ストリームの幅は$n$、特徴次元は$C$である。
最近提案されたmHC-liteは、Birkhoff-von-Neumannの定理を通じて残留行列を再パラメータ化して、二重確率性を保証するが、パラメータの複雑さにおいて、$\mathcal{O} \left(nC \cdot n!
右)$。
両課題に対処するために、より小さな2倍確率行列の \underline{Kro}necker 積を用いて、残留行列を \underline{mHC} でパラメトリズする \textbf{KromHC} を提案する。
テンソル化残差ストリームの各モードに沿った因子残差行列の多様体的制約を強制することにより、KromHCはパラメータの複雑さを$\mathcal{O}(n^2C)$に減らしながら、残留行列の正確な二重確率性を保証する。
総合的な実験により、KromHCは、訓練可能なパラメータを著しく少なくしながら、最先端(SOTA)のmHC変異にマッチし、さらに優れることを示した。
コードは \texttt{https://github.com/wz1119/KromHC} で公開されている。
関連論文リスト
- mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations [5.518733929171501]
制約のない残留行列は訓練安定性を損なうことがある。
DeepSeek's Manifold-Constrained Hyper-Connections (mHC) は、これらの行列を反復シンクホーン-クノップ(SK)正規化を通じてバーホフポリトープに投影する。
論文 参考訳(メタデータ) (2026-01-09T11:19:14Z) - Near-Optimal Clustering in Mixture of Markov Chains [74.3828414695655]
我々は、長さ$H$の軌跡を、大きさ$S$の有限状態空間上の未知のエルゴードマルコフ鎖の1つによって生成される、$T$ trajectories of length $H$の問題を研究する。
我々は、連鎖の遷移核間の重み付きKL分散によって支配されるクラスタリングエラー率に基づいて、インスタンス依存で高い確率の低い境界を導出する。
次に,新しい2段階クラスタリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-02T05:10:40Z) - Entropy and singular-value moments of products of truncated random unitary matrices [0.0]
切り離されたユニタリ行列の積は、監視された量子回路の普遍的な側面を研究するのに使うことができる。
エントロピー還元では、このパラメータがユニタリを越えたとき、$tau$に対する線型から対数依存に渡る。
結果、行列積の特異値モーメントをキューイング理論からErlang関数の観点で表現する。
論文 参考訳(メタデータ) (2025-01-19T15:46:08Z) - Reducing QUBO Density by Factoring Out Semi-Symmetries [4.581191399651181]
本稿では,QUBO行列におけるテクステミシンメトリの概念を紹介する。
提案アルゴリズムは結合数と回路深さを最大45%削減することを示した。
論文 参考訳(メタデータ) (2024-12-18T12:05:18Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Multi-block-Single-probe Variance Reduced Estimator for Coupled
Compositional Optimization [49.58290066287418]
構成問題の複雑さを軽減するために,MSVR (Multi-block-probe Variance Reduced) という新しい手法を提案する。
本研究の結果は, 試料の複雑さの順序や強靭性への依存など, 様々な面で先行して改善された。
論文 参考訳(メタデータ) (2022-07-18T12:03:26Z) - Perturbational Complexity by Distribution Mismatch: A Systematic
Analysis of Reinforcement Learning in Reproducing Kernel Hilbert Space [0.76146285961466]
一般再生カーネルヒルベルト空間(RKHS)における強化学習の解析
我々は、報酬関数がRKHSの単位球に含まれるマルコフ決定過程の族 $mathcalM$ を考える。
報酬関数が高次元のRKHSにあるとき、遷移確率が知られ、作用空間が有限であるとしても、RL問題を次元性の呪いに苦しむことは可能であることを示す。
論文 参考訳(メタデータ) (2021-11-05T12:46:04Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。