論文の概要: go-$m$HC: Direct Parameterization of Manifold-Constrained Hyper-Connections via Generalized Orthostochastic Matrices
- arxiv url: http://arxiv.org/abs/2604.02309v1
- Date: Thu, 02 Apr 2026 17:51:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.979692
- Title: go-$m$HC: Direct Parameterization of Manifold-Constrained Hyper-Connections via Generalized Orthostochastic Matrices
- Title(参考訳): go-$m$HC: 一般化orthostochastic Matriceによるマニフォールド制約ハイパーコネクションの直接パラメータ化
- Authors: Torque Dandachi, Sophia Diggs-Galligan,
- Abstract要約: 一般化直交行列の理論に基づく新しい正確なパラメータ化を導入する。
このパラメータ化をgo-$m$HCでインスタンス化する。
提案手法はKronecker-factorized法により自然に構成され, FLOPのコストがほぼ同じである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Doubly stochastic matrices enable learned mixing across residual streams, but parameterizing the set of doubly stochastic matrices (the Birkhoff polytope) exactly and efficiently remains an open challenge. Existing exact methods scale factorially with the number of streams ($d$), while Kronecker-factorized approaches are efficient but expressivity-limited. We introduce a novel exact parameterization grounded in the theory of generalized orthostochastic matrices, which scales as $\mathcal{O}(d^3)$ and exposes a single hyperparameter $s$ which continuously interpolates between a computationally efficient boundary and the fully expressive Birkhoff polytope. Building on Manifold-Constrained Hyper-Connections ($m$HC), a framework for learned dynamic layer connectivity, we instantiate this parameterization in go-$m$HC. Our method composes naturally with Kronecker-factorized methods, substantially recovering expressivity at similar FLOP costs. Spectral analysis indicates that go-$m$HC fills the Birkhoff polytope far more completely than Kronecker-factorized baselines. On synthetic stream-mixing tasks, go-$m$HC achieves the minimum theoretical loss while converging up to $10\times$ faster. We validate our approach in a 30M parameter GPT-style language model. The expressivity, efficiency, and exactness of go-$m$HC offer a practical avenue for scaling $d$ as a new dimension of model capacity.
- Abstract(参考訳): 二重確率行列は、残留ストリーム間で学習された混合を可能にするが、二重確率行列の集合(バーホフ多面体)を正確にかつ効率的にパラメータ化することは、オープンな課題である。
既存の正確な手法はストリーム数($d$)と因数分解的にスケールするが、Kroneckerに分解されたアプローチは効率的だが表現性に制限される。
これは$\mathcal{O}(d^3)$としてスケールし、計算効率の良い境界と完全に表現力のあるBirkhoffポリトープの間に連続的に補間する1つのハイパーパラメータ$s$を公開する。
動的層接続を学習するフレームワークであるManifold-Constrained Hyper-Connections(m$HC)上に構築し、go-m$HCでこのパラメータ化をインスタンス化する。
提案手法はKronecker-factorized法により自然に構成され, FLOPのコストがほぼ同じである。
分光分析により、go-$m$HCはクロネッカー分解基線よりもはるかに完全にバーホフポリトープを満たすことが示されている。
合成ストリームミキシングタスクでは、go-$m$HCは最小理論的損失を達成し、最大10\times$高速に収束する。
提案手法をGPT型言語モデル30Mパラメータで検証する。
go-m$HCの表現性、効率、正確性は、モデルキャパシティの新しい次元として$d$をスケーリングするための実用的な道を提供する。
関連論文リスト
- Regularized Online RLHF with Generalized Bilinear Preferences [68.44113000390544]
一般的な嗜好を伴う文脈的オンラインRLHFの問題を考える。
一般化された双線形選好モデルを用いて、低ランクなスキュー対称行列による選好を捉える。
グリーディポリシーの双対ギャップは推定誤差の正方形によって有界であることを示す。
論文 参考訳(メタデータ) (2026-02-26T15:27:53Z) - Parameter-free Algorithms for the Stochastically Extended Adversarial Model [59.81852138768642]
拡張逆数(SEA)モデルの既存のアプローチは、ドメインの直径$D$や損失関数のリプシッツ定数$G$といった問題固有のパラメータの事前知識を必要とする。
パラメータを不要にするためにOptimistic Online Newton Step (OONS) アルゴリズムを利用するパラメータフリー手法を開発した。
論文 参考訳(メタデータ) (2025-10-06T10:53:37Z) - Inertial Quadratic Majorization Minimization with Application to Kernel Regularized Learning [1.0282274843007797]
外部補間(QMME)フレームワークを導入し,その逐次収束特性を確立する。
実効性を示すために,大規模カーネル正規化学習問題にQMMEを適用した。
論文 参考訳(メタデータ) (2025-07-06T05:17:28Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Orthogonal Directions Constrained Gradient Method: from non-linear
equality constraints to Stiefel manifold [16.099883128428054]
直交方向制約法(ODCGM)という新しいアルゴリズムを提案する。
ODCGMはベクトル空間へのプロジェクションのみを必要とする。
以上より, ODCGMは, ほぼ最適のオラクル複合体を呈することを示した。
論文 参考訳(メタデータ) (2023-03-16T12:25:53Z) - CEDAS: A Compressed Decentralized Stochastic Gradient Method with Improved Convergence [9.11726703830074]
本稿では,通信制限条件下で分散最適化問題を解くことを検討する。
CEDASと呼ばれる圧縮精密拡散法について述べる。
特に、いつ時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時時
論文 参考訳(メタデータ) (2023-01-14T09:49:15Z) - Reducing the Variance of Gaussian Process Hyperparameter Optimization
with Preconditioning [54.01682318834995]
プレコンディショニングは、行列ベクトル乗算を含む反復的な方法にとって非常に効果的なステップである。
プレコンディショニングには、これまで検討されていなかった付加的なメリットがあることを実証する。
基本的に無視可能なコストで、同時に分散を低減することができる。
論文 参考訳(メタデータ) (2021-07-01T06:43:11Z) - An Online Riemannian PCA for Stochastic Canonical Correlation Analysis [37.8212762083567]
投影行列の再パラメータ化を用いた正準相関解析(CCA)のための効率的なアルゴリズム(RSG+)を提案する。
本論文は,その特性の定式化と技術的解析に主眼を置いているが,本実験により,一般的なデータセットに対する経験的挙動が極めて有望であることが確認された。
論文 参考訳(メタデータ) (2021-06-08T23:38:29Z) - Unified Convergence Analysis for Adaptive Optimization with Moving Average Estimator [75.05106948314956]
1次モーメントに対する大きな運動量パラメータの増大は適応的スケーリングに十分であることを示す。
また,段階的に減少するステップサイズに応じて,段階的に運動量を増加させるための洞察を与える。
論文 参考訳(メタデータ) (2021-04-30T08:50:24Z) - A conditional one-output likelihood formulation for multitask Gaussian
processes [0.0]
マルチタスクガウス過程(MTGP)は多出力回帰問題に対するガウスプロセスフレームワークの解である。
本稿では,マルチタスク学習を簡略化する新しい手法を提案する。
現状の美術品と計算的に競合していることが示される。
論文 参考訳(メタデータ) (2020-06-05T14:59:06Z) - Multi-Objective Matrix Normalization for Fine-grained Visual Recognition [153.49014114484424]
双線形プールは細粒度視覚認識(FGVC)において大きな成功を収める
近年,行列パワー正規化は双線形特徴量において2次情報を安定化させることができることが示されている。
両線形表現を同時に正規化できる効率的な多目的行列正規化法(MOMN)を提案する。
論文 参考訳(メタデータ) (2020-03-30T08:40:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。