Fugu-MT 論文翻訳(概要): JPmHC Dynamical Isometry via Orthogonal Hyper-Connections

論文の概要: JPmHC Dynamical Isometry via Orthogonal Hyper-Connections

arxiv url: http://arxiv.org/abs/2602.18308v1
Date: Fri, 20 Feb 2026 16:06:01 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 18:01:41.371732
Title: JPmHC Dynamical Isometry via Orthogonal Hyper-Connections
Title（参考訳）: 直交ハイパーコネクションを用いたJPmHC動的アイソメトリ
Authors: Biswa Sengupta, Jinhua Wang, Leo Brunswic,
Abstract要約: JPmHCは、n個の並列ストリームに作用するトレーニング可能な線形ミキサーでIDスキップを置き換えるフレームワークである。緩やかな病理を予防し、安定性を高める。両眼的ベースラインに比べて、より高速な収束、高い精度、計算コストの低減を実現している。
参考スコア（独自算出の注目度）: 2.4311915994390403
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in deep learning, exemplified by Hyper-Connections (HC), have expanded the residual connection paradigm by introducing wider residual streams and diverse connectivity patterns. While these innovations yield significant performance gains, they compromise the identity mapping property of residual connections, leading to training instability, limited scalability, and increased memory overhead. To address these challenges, we propose JPmHC (Jacobian-spectrum Preserving manifold-constrained Hyper-Connections), a framework that replaces identity skips with a trainable linear mixer acting on n parallel streams while explicitly controlling gradient conditioning. By constraining the mixer M on operator-norm-bounded manifolds (e.g., bistochastic, Stiefel, Grassmann), JPmHC prevents gradient pathologies and enhances stability. JPmHC introduces three key contributions: (i) a free-probability analysis that predicts Jacobian spectra for structured skips, providing actionable design rules for mixer selection; (ii) memory-efficient implicit differentiation for fixed-point projections, reducing activation memory and synchronization overhead; and (iii) a Stiefel-constrained mixer via Cayley transforms, ensuring orthogonality without post-hoc normalization. Empirical evaluations on ARC-AGI demonstrate that JPmHC achieves faster convergence, higher accuracy, and lower computational cost compared to bistochastic baselines. As a flexible and scalable extension of HC, JPmHC advances spectrum-aware, stable, and efficient deep learning, offering insights into topological architecture design and foundational model evolution.
Abstract（参考訳）: ハイパーコネクション(HC)によって実証されたディープラーニングの最近の進歩は、より広い残差ストリームと多様な接続パターンを導入することで、残差接続パラダイムを拡張している。これらのイノベーションは大きなパフォーマンス向上をもたらすが、残余接続のアイデンティティマッピング特性を損なうため、トレーニングの不安定性、スケーラビリティの制限、メモリオーバーヘッドの増大につながる。これらの課題に対処するために, JPmHC (Jacobian-spectrum Preserving manifold-Constrained Hyper-Connections) を提案する。ミキサー M を作用素ノルム有界多様体 (例 , bistochastic, Stiefel, Grassmann) に制約することにより、JPmHC は勾配の病理を防ぎ、安定性を高める。 JPmHCは3つの重要なコントリビューションを紹介します。 i) 構造化スキップに対するヤコビスペクトルを予測し、ミキサー選択のための実行可能な設計規則を提供する自由確率解析 (II) 固定点投影のための暗黙差分法、アクティベーションメモリの低減、同期オーバーヘッド 3) ケイリー変換によるスティーフェル制約ミキサーで、ポストホック正規化なしで直交を保証する。 ARC-AGIにおける実験的な評価は、JPmHCが双確率ベースラインに比べて高速な収束、高い精度、低い計算コストを達成することを示した。 HCのフレキシブルでスケーラブルな拡張として、JPmHCは、トポロジカルアーキテクチャ設計と基礎モデル進化に関する洞察を提供する、スペクトル認識、安定、効率的なディープラーニングを推進している。

関連論文リスト

mHC: Manifold-Constrained Hyper-Connections [43.69451283828811]
ハイパーコネクション(HC)は、残流幅を拡大し、接続パターンを多様化することで、ユビキタスな残差接続パラダイムを拡張した。残留接続に固有のアイデンティティマッピング特性を復元するために,manifold-Constrained Hyper-Connection (mHC)を提案する。 mHCは大規模なトレーニングに有効で、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
論文参考訳（メタデータ） (2025-12-31T14:16:26Z)
HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation [72.69742127579508]
最近の統一モデルでは、理解の専門家(LLMなど)と生成の専門家(拡散モデルなど)を統合している。本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示している。
論文参考訳（メタデータ） (2025-11-25T17:23:38Z)
Adapformer: Adaptive Channel Management for Multivariate Time Series Forecasting [49.40321003932633]
Adapformerは、効果的なチャネル管理を通じてCIとCD方法論のメリットをマージする、トランスフォーマーベースの高度なフレームワークである。 Adapformerは既存のモデルよりも優れた性能を実現し、予測精度と計算効率の両方を向上させる。
論文参考訳（メタデータ） (2025-11-18T16:24:05Z)
Bifidelity Karhunen-Loève Expansion Surrogate with Active Learning for Random Fields [0.4899818550820576]
本稿では、不確実な入力条件下で、フィールド値の利子(QoIs)に対する二元性カルフネン・ローブ拡張(KLE)サロゲートモデルを提案する。我々は,サロゲートの一般化誤差に基づいて,新しいHF評価を適応的に選択する能動的学習戦略を形成する。新しいHFサンプルは、高いサロゲート誤差の領域をターゲットとして、期待される改善基準を最大化することによって取得される。
論文参考訳（メタデータ） (2025-11-05T04:14:44Z)
Flow-Matching Guided Deep Unfolding for Hyperspectral Image Reconstruction [53.26903617819014]
Flow-Matching-Guided Unfolding Network (FMU)は、最初にフローマッチングをHSI再構成に統合する。学習力学をさらに強化するために,平均速度損失を導入する。シミュレーションと実データの両方の実験により、FMUは復元品質において既存のアプローチよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2025-10-02T11:32:00Z)
Advanced Hybrid Transformer LSTM Technique with Attention and TS Mixer for Drilling Rate of Penetration Prediction [0.9282594860064428]
本研究では,浸透率予測のための新しいディープラーニング型LSTM-Trans-Mixer-Attフレームワークを提案する。提案するフレームワークは、シーケンシャルメモリ、静的特徴相互作用、グローバルコンテキスト学習、動的特徴重み付けを組み合わせたものである。実世界の掘削データセットに対する実験的検証は優れた性能を示し、Rsquareは0.9991、MAPEは1.447%である。
論文参考訳（メタデータ） (2025-08-07T09:45:56Z)
MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文参考訳（メタデータ） (2025-07-06T08:16:50Z)
EKPC: Elastic Knowledge Preservation and Compensation for Class-Incremental Learning [53.88000987041739]
クラスインクリメンタルラーニング(Class-Incremental Learning, CIL)は、AIモデルを、時間とともに異なるクラスのシーケンシャルに到着したデータから継続的に学習可能にすることを目的としている。本稿では, 重要度を考慮した重要度正規化 (IPR) と CIL のためのトレーニング可能なセマンティックドリフト補償 (TSDC) を統合したElastic Knowledge Preservation and Compensation (EKPC) 法を提案する。
論文参考訳（メタデータ） (2025-06-14T05:19:58Z)
Nonparametric learning of covariate-based Markov jump processes using RKHS techniques [3.3005714301829148]
我々は、co変数を連続時間マルコフ連鎖(CTMC)にリンクするための新しい非パラメトリックアプローチを提案する。 CTMCは、臨床または行動状態の遷移をモデリングするための堅牢なフレームワークを提供する。一般化されたRepresenter Theoremを用いて、関数空間におけるトラクタブル推論を可能にする。
論文参考訳（メタデータ） (2025-05-06T02:26:02Z)
Quantized and Asynchronous Federated Learning [22.40154714677385]
我々は,通信ボトルネックに対処する新しい手法であるQuantized Federated AsynchronousQALを開発した。我々はQALが一様クライアントの到着を必要とせずに$mathtcalqr$dic収束を実現することを証明した。提案手法を標準ベンチマークを用いて検証する。
論文参考訳（メタデータ） (2024-09-30T21:22:41Z)
Towards Continual Learning Desiderata via HSIC-Bottleneck Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文参考訳（メタデータ） (2024-01-17T09:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。