論文の概要: TBP-mHC: full expressivity for manifold-constrained hyper connections through transportation polytopes
- arxiv url: http://arxiv.org/abs/2605.21724v1
- Date: Wed, 20 May 2026 20:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.989722
- Title: TBP-mHC: full expressivity for manifold-constrained hyper connections through transportation polytopes
- Title(参考訳): TBP-mHC:輸送ポリトープを介した多様体制約ハイパーコネクションの完全な表現性
- Authors: Anton Lyubinin,
- Abstract要約: ハイパーコネクション(HC)は、複数の残留ストリームに学習可能な混合を導入することで、残留ネットワークを改善する。
輸送ビルホフポリトープ(TBP)パラメータ化とその再帰的変種(RTBP)を提案する。
提案手法は,バーホフポリトープの完全表現性を維持しながら,反復正規化と爆発を回避する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hyper-Connections (HC) improve residual networks by introducing learnable mixing across multiple residual streams, but unconstrained mixing leads to training instability. Manifold-Constrained Hyper-Connections (mHC) address this by enforcing approximate double stochasticity via Sinkhorn normalization, while mHC-lite ensures exact constraints through convex combinations of permutation matrices at the cost of factorial complexity. KromHC reduces this cost using Kronecker-product parameterizations, but restricts the mixing matrices to a structured submanifold of the Birkhoff polytope . We propose Transportation Birkhoff Polytope (TBP) parameterizations and their Recursive variants (RTBP), which construct exactly doubly stochastic mixing matrices with $(n-1)^2$ degrees of freedom. Our approach avoids iterative normalization and combinatorial explosion while preserving full expressivity of the Birkhoff polytope. Empirical results on language model pre-training' demonstrate competitive performance with improved stability and scalability.
- Abstract(参考訳): ハイパーコネクション(HC)は、複数の残留ストリームに学習可能なミキシングを導入することで、残留ネットワークを改善するが、制約のないミキシングはトレーニング不安定をもたらす。
Manifold-Constrained Hyper-Connections (mHC) はシンクホーン正規化(英語版)による近似的な二重確率性を強制することによりこの問題に対処し、一方mHC-lite は係数複雑性のコストで置換行列の凸結合による正確な制約を保証する。
KromHCはKronecker-productパラメータ化を用いてこのコストを削減するが、混合行列はBirkhoffポリトープの構造的部分多様体に制限される。
本稿では,(n-1)^2$自由度で確率的混合行列を正確に2倍に構成する輸送ビルホフポリトープ(TBP)パラメータ化とその再帰的変種(RTBP)を提案する。
本手法はBirkhoffポリトープの完全表現性を保ちながら反復正規化と組合せ爆発を回避する。
言語モデルの事前学習に関する実証的な結果は、安定性とスケーラビリティを改善した競合性能を示している。
関連論文リスト
- go-$m$HC: Direct Parameterization of Manifold-Constrained Hyper-Connections via Generalized Orthostochastic Matrices [0.0]
一般化直交行列の理論に基づく新しい正確なパラメータ化を導入する。
このパラメータ化をgo-$m$HCでインスタンス化する。
提案手法はKronecker-factorized法により自然に構成され, FLOPのコストがほぼ同じである。
論文 参考訳(メタデータ) (2026-04-02T17:51:19Z) - Beyond the Birkhoff Polytope: Spectral-Sphere-Constrained Hyper-Connections [10.82991070567946]
制約のない混合は、アイデンティティマッピング特性を残留接続に妨害し、不安定なトレーニングを引き起こす。
スペクトル球学習ハイパーコネクション(sHC)を提案する。
sHCは負のエントリを許容し、選択的な特徴の多様化のための抽出的相互作用を解き放つ。
論文 参考訳(メタデータ) (2026-03-21T18:03:03Z) - Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - JPmHC Dynamical Isometry via Orthogonal Hyper-Connections [2.4311915994390403]
JPmHCは、n個の並列ストリームに作用するトレーニング可能な線形ミキサーでIDスキップを置き換えるフレームワークである。
緩やかな病理を予防し、安定性を高める。
両眼的ベースラインに比べて、より高速な収束、高い精度、計算コストの低減を実現している。
論文 参考訳(メタデータ) (2026-02-20T16:06:01Z) - KromHC: Manifold-Constrained Hyper-Connections with Kronecker-Product Residual Matrices [6.968486021891596]
本研究は, 残留行列の小さいアンダーラインKronecker生成物を用いて, アンダーラインmHCの残留行列をパラメトリゼーションするtextbfKromHCを提案する。
実験により、KromHCは、訓練可能なパラメータを著しく少なくしながら、最先端のmHC変種にマッチし、さらに優れることを示した。
論文 参考訳(メタデータ) (2026-01-29T11:43:05Z) - mHC-lite: You Don't Need 20 Sinkhorn-Knopp Iterations [5.518733929171501]
制約のない残留行列は訓練安定性を損なうことがある。
DeepSeek's Manifold-Constrained Hyper-Connections (mHC) は、これらの行列を反復シンクホーン-クノップ(SK)正規化を通じてバーホフポリトープに投影する。
論文 参考訳(メタデータ) (2026-01-09T11:19:14Z) - Graph-based Clustering Revisited: A Relaxation of Kernel $k$-Means Perspective [73.18641268511318]
本稿では,クラスタリング結果を導出するための正規制約のみを緩和するグラフベースのクラスタリングアルゴリズムを提案する。
二重制約を勾配に変換するために、非負の制約をクラス確率パラメータに変換する。
論文 参考訳(メタデータ) (2025-09-23T09:14:39Z) - Fast Semisupervised Unmixing Using Nonconvex Optimization [80.11512905623417]
半/ライブラリベースのアンミックスのための新しい凸凸モデルを提案する。
スパース・アンミキシングの代替手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-01-23T10:07:41Z) - Controlling the Complexity and Lipschitz Constant improves polynomial
nets [55.121200972539114]
多項式ネットの結合CP分解(CCP)モデルとNested Coupled CP分解(NCP)モデルに対する新しい複雑性境界を導出する。
本研究では、6つのデータセットで実験的に評価し、モデルが逆摂動に対して頑健であるとともに精度も向上することを示す。
論文 参考訳(メタデータ) (2022-02-10T14:54:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。