論文の概要: mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations
- arxiv url: http://arxiv.org/abs/2601.05732v1
- Date: Fri, 09 Jan 2026 11:19:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.95547
- Title: mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations
- Title(参考訳): mHC-lite:20個のシンクホーン・ノップ・イテレーションは必要ない
- Authors: Yongyi Yang, Jianyang Gao,
- Abstract要約: 制約のない残留行列は訓練安定性を損なうことがある。
DeepSeek's Manifold-Constrained Hyper-Connections (mHC) は、これらの行列を反復シンクホーン-クノップ(SK)正規化を通じてバーホフポリトープに投影する。
- 参考スコア(独自算出の注目度): 5.518733929171501
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyper-Connections (HC) generalizes residual connections by introducing dynamic residual matrices that mix information across multiple residual streams, accelerating convergence in deep neural networks. However, unconstrained residual matrices can compromise training stability. To address this, DeepSeek's Manifold-Constrained Hyper-Connections (mHC) approximately projects these matrices onto the Birkhoff polytope via iterative Sinkhorn--Knopp (SK) normalization. We identify two limitations of this approach: (i) finite SK iterations do not guarantee exact doubly stochasticity, leaving an approximation gap that can accumulate through network depth and undermine stability; (ii) efficient SK implementation requires highly specialized CUDA kernels, raising engineering barriers and reducing portability. Motivated by the Birkhoff--von Neumann theorem, we propose mHC-lite, a simple reparameterization that explicitly constructs doubly stochastic matrices as convex combinations of permutation matrices. This approach guarantees exact doubly stochasticity by construction and can be implemented using only native matrix operations. Extensive experiments demonstrate that mHC-lite matches or exceeds mHC in performance while achieving higher training throughput with a naive implementation and eliminating the residual instabilities observed in both HC and mHC. The code is publicly available at https://github.com/FFTYYY/mhc-lite.
- Abstract(参考訳): ハイパーコネクション(HC)は、複数の残差ストリームに情報を混合する動的残留行列を導入し、ディープニューラルネットワークの収束を加速することで、残差接続を一般化する。
しかし、制約のない残留行列は訓練安定性を損なう可能性がある。
これを解決するために、DeepSeek の Manifold-Constrained Hyper-Connections (mHC) は、これらの行列を反復シンクホーン-ノック正規化 (SK) を通してバーホフポリトープに投影する。
このアプローチの2つの制限を特定します。
(i)有限SK反復は、ネットワーク深さを通じて蓄積し安定性を損なう近似ギャップを残して、正確に2倍確率性を保証するものではない。
(II)効率的なSK実装には、高度に専門化されたCUDAカーネル、エンジニアリング障壁の上昇、ポータビリティの低下が必要である。
ビルホフ-ヴォン・ノイマンの定理に動機付けられ、置換行列の凸結合として二重確率行列を明示的に構成する単純な再パラメータ化であるmHC-liteを提案する。
このアプローチは、構成によって正確に2倍確率性を保証するとともに、ネイティブマトリックス操作のみを使用して実装することができる。
大規模な実験により,mHC-lite はmHC よりも高い性能を示し,高いトレーニングスループットを実現し,HC と mHC の両方で観測される残留不安定性を排除した。
コードはhttps://github.com/FFTYYY/mhc-lite.comで公開されている。
関連論文リスト
- Quantum Simulation of Non-unitary Dynamics via Contour-based Matrix Decomposition [6.538464633253838]
非単体力学のスケーラブルなシミュレーションフレームワークである,輪郭型行列分解(CBMD)を導入する。
CBMDはコーシーの剰余定理を行列値関数に一般化し、非エルミート函数を直接ヘルミート函数の線型結合に分解する。
論文 参考訳(メタデータ) (2025-11-13T12:52:52Z) - Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.18641268511318]
本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。
二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文 参考訳(メタデータ) (2025-09-23T09:14:39Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - BOLT: Block-Orthonormal Lanczos for Trace estimation of matrix functions [2.4578723416255754]
多くの大規模アプリケーションでは、関連する行列が大きすぎて完全に保存またはアクセスできないため、単一のマットベック製品が実現不可能である。
本稿では,小さな主行列のみで動作するBOLTの変種であるSubblock SLQを紹介する。
理論的な保証を提供し、高次元設定の範囲で強い経験的性能を示す。
論文 参考訳(メタデータ) (2025-05-18T08:04:05Z) - Randomized semi-quantum matrix processing [0.0]
汎用行列関数をシミュレートするためのハイブリッド量子古典的フレームワークを提案する。
この方法は、対象関数のチェビシェフ近似上のランダム化に基づいている。
コストのかかるパラメータの2次高速化を含む,平均深度に対する利点を実証する。
論文 参考訳(メタデータ) (2023-07-21T18:00:28Z) - Reconstructing Kernel-based Machine Learning Force Fields with
Super-linear Convergence [0.18416014644193063]
我々は、プレコンディショナーを構築するためのNystr"om-typeメソッドの幅広いクラスについて考察する。
検討されたすべての方法は、支配的なカーネルスペクトルを近似するために、インジェクション(カーネル)列の代表的なサブセットを特定することを目的としている。
論文 参考訳(メタデータ) (2022-12-24T13:45:50Z) - Semi-Supervised Subspace Clustering via Tensor Low-Rank Representation [64.49871502193477]
本稿では,初期監視情報を同時に拡張し,識別親和性行列を構築することのできる,新しい半教師付きサブスペースクラスタリング手法を提案する。
6つの一般的なベンチマークデータセットの総合的な実験結果から,本手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-21T01:47:17Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - Self-supervised Symmetric Nonnegative Matrix Factorization [82.59905231819685]
シンメトリー非負係数行列(SNMF)は、データクラスタリングの強力な方法であることを示した。
より良いクラスタリング結果を求めるアンサンブルクラスタリングにインスパイアされた,自己監視型SNMF(S$3$NMF)を提案する。
SNMFのコード特性に対する感度を、追加情報に頼らずに活用しています。
論文 参考訳(メタデータ) (2021-03-02T12:47:40Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。