論文の概要: JPmHC Dynamical Isometry via Orthogonal Hyper-Connections
- arxiv url: http://arxiv.org/abs/2602.18308v1
- Date: Fri, 20 Feb 2026 16:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.371732
- Title: JPmHC Dynamical Isometry via Orthogonal Hyper-Connections
- Title(参考訳): 直交ハイパーコネクションを用いたJPmHC動的アイソメトリ
- Authors: Biswa Sengupta, Jinhua Wang, Leo Brunswic,
- Abstract要約: JPmHCは、n個の並列ストリームに作用するトレーニング可能な線形ミキサーでIDスキップを置き換えるフレームワークである。
緩やかな病理を予防し、安定性を高める。
両眼的ベースラインに比べて、より高速な収束、高い精度、計算コストの低減を実現している。
- 参考スコア(独自算出の注目度): 2.4311915994390403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in deep learning, exemplified by Hyper-Connections (HC), have expanded the residual connection paradigm by introducing wider residual streams and diverse connectivity patterns. While these innovations yield significant performance gains, they compromise the identity mapping property of residual connections, leading to training instability, limited scalability, and increased memory overhead. To address these challenges, we propose JPmHC (Jacobian-spectrum Preserving manifold-constrained Hyper-Connections), a framework that replaces identity skips with a trainable linear mixer acting on n parallel streams while explicitly controlling gradient conditioning. By constraining the mixer M on operator-norm-bounded manifolds (e.g., bistochastic, Stiefel, Grassmann), JPmHC prevents gradient pathologies and enhances stability. JPmHC introduces three key contributions: (i) a free-probability analysis that predicts Jacobian spectra for structured skips, providing actionable design rules for mixer selection; (ii) memory-efficient implicit differentiation for fixed-point projections, reducing activation memory and synchronization overhead; and (iii) a Stiefel-constrained mixer via Cayley transforms, ensuring orthogonality without post-hoc normalization. Empirical evaluations on ARC-AGI demonstrate that JPmHC achieves faster convergence, higher accuracy, and lower computational cost compared to bistochastic baselines. As a flexible and scalable extension of HC, JPmHC advances spectrum-aware, stable, and efficient deep learning, offering insights into topological architecture design and foundational model evolution.
- Abstract(参考訳): ハイパーコネクション(HC)によって実証されたディープラーニングの最近の進歩は、より広い残差ストリームと多様な接続パターンを導入することで、残差接続パラダイムを拡張している。
これらのイノベーションは大きなパフォーマンス向上をもたらすが、残余接続のアイデンティティマッピング特性を損なうため、トレーニングの不安定性、スケーラビリティの制限、メモリオーバーヘッドの増大につながる。
これらの課題に対処するために, JPmHC (Jacobian-spectrum Preserving manifold-Constrained Hyper-Connections) を提案する。
ミキサー M を作用素ノルム有界多様体 (例 , bistochastic, Stiefel, Grassmann) に制約することにより、JPmHC は勾配の病理を防ぎ、安定性を高める。
JPmHCは3つの重要なコントリビューションを紹介します。
i) 構造化スキップに対するヤコビスペクトルを予測し、ミキサー選択のための実行可能な設計規則を提供する自由確率解析
(II) 固定点投影のための暗黙差分法、アクティベーションメモリの低減、同期オーバーヘッド
3) ケイリー変換によるスティーフェル制約ミキサーで、ポストホック正規化なしで直交を保証する。
ARC-AGIにおける実験的な評価は、JPmHCが双確率ベースラインに比べて高速な収束、高い精度、低い計算コストを達成することを示した。
HCのフレキシブルでスケーラブルな拡張として、JPmHCは、トポロジカルアーキテクチャ設計と基礎モデル進化に関する洞察を提供する、スペクトル認識、安定、効率的なディープラーニングを推進している。
関連論文リスト
- mHC: Manifold-Constrained Hyper-Connections [43.69451283828811]
ハイパーコネクション(HC)は、残流幅を拡大し、接続パターンを多様化することで、ユビキタスな残差接続パラダイムを拡張した。
残留接続に固有のアイデンティティマッピング特性を復元するために,manifold-Constrained Hyper-Connection (mHC)を提案する。
mHCは大規模なトレーニングに有効で、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
論文 参考訳(メタデータ) (2025-12-31T14:16:26Z) - HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation [72.69742127579508]
最近の統一モデルでは、理解の専門家(LLMなど)と生成の専門家(拡散モデルなど)を統合している。
本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。
複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示している。
論文 参考訳(メタデータ) (2025-11-25T17:23:38Z) - Flow-Matching Guided Deep Unfolding for Hyperspectral Image Reconstruction [53.26903617819014]
Flow-Matching-Guided Unfolding Network (FMU)は、最初にフローマッチングをHSI再構成に統合する。
学習力学をさらに強化するために,平均速度損失を導入する。
シミュレーションと実データの両方の実験により、FMUは復元品質において既存のアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-02T11:32:00Z) - Advanced Hybrid Transformer LSTM Technique with Attention and TS Mixer for Drilling Rate of Penetration Prediction [0.9282594860064428]
本研究では,浸透率予測のための新しいディープラーニング型LSTM-Trans-Mixer-Attフレームワークを提案する。
提案するフレームワークは、シーケンシャルメモリ、静的特徴相互作用、グローバルコンテキスト学習、動的特徴重み付けを組み合わせたものである。
実世界の掘削データセットに対する実験的検証は優れた性能を示し、Rsquareは0.9991、MAPEは1.447%である。
論文 参考訳(メタデータ) (2025-08-07T09:45:56Z) - EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。
本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文 参考訳(メタデータ) (2025-06-14T05:19:58Z) - Nonparametric learning of covariate-based Markov jump processes using RKHS techniques [3.3005714301829148]
我々は、co変数を連続時間マルコフ連鎖(CTMC)にリンクするための新しい非パラメトリックアプローチを提案する。
CTMCは、臨床または行動状態の遷移をモデリングするための堅牢なフレームワークを提供する。
一般化されたRepresenter Theoremを用いて、関数空間におけるトラクタブル推論を可能にする。
論文 参考訳(メタデータ) (2025-05-06T02:26:02Z) - Quantized and Asynchronous Federated Learning [22.40154714677385]
我々は,通信ボトルネックに対処する新しい手法であるQuantized Federated AsynchronousQALを開発した。
我々はQALが一様クライアントの到着を必要とせずに$mathtcalqr$dic収束を実現することを証明した。
提案手法を標準ベンチマークを用いて検証する。
論文 参考訳(メタデータ) (2024-09-30T21:22:41Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。