論文の概要: mHC: Manifold-Constrained Hyper-Connections
- arxiv url: http://arxiv.org/abs/2512.24880v2
- Date: Mon, 05 Jan 2026 16:51:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.82688
- Title: mHC: Manifold-Constrained Hyper-Connections
- Title(参考訳): mHC:manifold-Constrained Hyper-Connections
- Authors: Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Kuai Yu, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang,
- Abstract要約: ハイパーコネクション(HC)は、残流幅を拡大し、接続パターンを多様化することで、ユビキタスな残差接続パラダイムを拡張した。
残留接続に固有のアイデンティティマッピング特性を復元するために,manifold-Constrained Hyper-Connection (mHC)を提案する。
mHCは大規模なトレーニングに有効で、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
- 参考スコア(独自算出の注目度): 43.69451283828811
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and diversifying connectivity patterns. While yielding substantial performance gains, this diversification fundamentally compromises the identity mapping property intrinsic to the residual connection, which causes severe training instability and restricted scalability, and additionally incurs notable memory access overhead. To address these challenges, we propose Manifold-Constrained Hyper-Connections (mHC), a general framework that projects the residual connection space of HC onto a specific manifold to restore the identity mapping property, while incorporating rigorous infrastructure optimization to ensure efficiency. Empirical experiments demonstrate that mHC is effective for training at scale, offering tangible performance improvements and superior scalability. We anticipate that mHC, as a flexible and practical extension of HC, will contribute to a deeper understanding of topological architecture design and suggest promising directions for the evolution of foundational models.
- Abstract(参考訳): 近年,ハイパーコネクション(HC)で実証された研究は,残流幅の拡大と接続パターンの多様化により,過去10年間に確立されたユビキタスな残差接続パラダイムを拡張している。
性能が大幅に向上する一方で、この多様化は、残留接続に固有のアイデンティティマッピング特性を根本的に損なう。
これらの課題に対処するため、我々はHCの残余接続空間を特定の多様体に投影してアイデンティティマッピング特性を復元する一般的なフレームワークであるManifold-Constrained Hyper-Connections (mHC)を提案する。
経験的な実験では、mHCは大規模なトレーニングに有効であり、具体的なパフォーマンス改善と優れたスケーラビリティを提供する。
我々は,mHCの柔軟で実用的な拡張として,トポロジカルアーキテクチャ設計の深い理解に寄与し,基礎モデルの進化に期待できる方向を提案することを期待する。
関連論文リスト
- Improving Multi-step RAG with Hypergraph-based Memory for Long-Context Complex Relational Modeling [83.29209853451697]
多段階検索強化世代(RAG)は,大規模言語モデル(LLM)の拡張戦略として広く採用されている。
我々はHGMemというハイパーグラフベースのメモリ機構を導入し、複雑な推論とグローバルな理解のためにメモリの概念を動的に表現的構造に拡張する。
提案手法では,ハイパーエッジが異なるメモリ単位に対応するハイパーグラフとして表現され,メモリ内での高次相互作用の進行的形成を可能にする。
論文 参考訳(メタデータ) (2025-12-30T03:13:10Z) - Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models [71.9060068259379]
汎用推論モデルを構築するために,ケースド・ドメインワイド強化学習を提案する。
私たちの14Bモデルは、RLの後、LiveCodeBench v5/v6 ProでSFTの教師であるDeepSeek-R1-0528を上回り、インフォマティクスにおける2025 International Olympiad in Informatics (IOI)における銀の医療性能を上回りました。
論文 参考訳(メタデータ) (2025-12-15T18:02:35Z) - HBridge: H-Shape Bridging of Heterogeneous Experts for Unified Multimodal Understanding and Generation [72.69742127579508]
最近の統一モデルでは、理解の専門家(LLMなど)と生成の専門家(拡散モデルなど)を統合している。
本研究では,非対称なH字型アーキテクチャであるHBridgeを提案する。
複数のベンチマークにわたる大規模な実験は、HBridgeの有効性と優れた性能を示している。
論文 参考訳(メタデータ) (2025-11-25T17:23:38Z) - Flow-Matching Guided Deep Unfolding for Hyperspectral Image Reconstruction [53.26903617819014]
Flow-Matching-Guided Unfolding Network (FMU)は、最初にフローマッチングをHSI再構成に統合する。
学習力学をさらに強化するために,平均速度損失を導入する。
シミュレーションと実データの両方の実験により、FMUは復元品質において既存のアプローチよりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2025-10-02T11:32:00Z) - CCF: A Context Compression Framework for Efficient Long-Sequence Language Modeling [52.05149789178508]
CCFは、効率的な長期コンテキストモデリングを可能にするように設計された、新しいコンテキスト圧縮フレームワークである。
CCFはセグメントワイドなセマンティックアグリゲーションとキー-値メモリエンコーディングを統合し、コンパクトな表現を形成する。
複数の長文言語モデリングベンチマークによる実験結果から,CCFは高い圧縮比下での競合パープレキシティを実現することが示された。
論文 参考訳(メタデータ) (2025-09-11T07:13:49Z) - Scalable fluxonium qubit architecture with tunable interactions between non-computational levels [21.16783987031157]
非計算状態間の調整可能な結合を維持しつつ、キュービット状態の疎結合を可能にするスケーラブルなフラキソニウムアーキテクチャを導入する。
本研究では,フラキソニウムプラズモン転移に対するチューナブルカップリングの実装により,高速かつ高忠実なゲートと受動ZZ抑制を両立させることにより,この問題を緩和できることを実証した。
論文 参考訳(メタデータ) (2025-04-14T05:31:47Z) - Retraining-Free Merging of Sparse MoE via Hierarchical Clustering [24.28646376876676]
本稿では, 疎活性化型エキスパート混合(HC-SMoE)のための階層クラスタリングについて紹介する。
HC-SMoEは、パラメータ還元のためのタスクに依存しないエキスパートマージフレームワークである。
我々は、QwenやMixtralを含む最先端モデルにおけるHC-SMoEの有効性を示すために、複数のゼロショット言語タスクの理論的解析と評価を行う。
論文 参考訳(メタデータ) (2024-10-11T07:36:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。