論文の概要: Frac-Connections: Fractional Extension of Hyper-Connections
- arxiv url: http://arxiv.org/abs/2503.14125v1
- Date: Tue, 18 Mar 2025 10:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:22.996678
- Title: Frac-Connections: Fractional Extension of Hyper-Connections
- Title(参考訳): Frac-Connections: ハイパーコネクションのフラクショナル拡張
- Authors: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou,
- Abstract要約: Frac-Connectionsは、隠れた状態を幅を広げるのではなく、複数の部分に分割する新しいアプローチである。
我々は,最大3Tトークンでトレーニングされた7B MoEモデルで,言語タスクに関する大規模な実験を行っている。
- 参考スコア(独自算出の注目度): 9.370798712025104
- License:
- Abstract: Residual connections are central to modern deep learning architectures, enabling the training of very deep networks by mitigating gradient vanishing. Hyper-Connections recently generalized residual connections by introducing multiple connection strengths at different depths, thereby addressing the seesaw effect between gradient vanishing and representation collapse. However, Hyper-Connections increase memory access costs by expanding the width of hidden states. In this paper, we propose Frac-Connections, a novel approach that divides hidden states into multiple parts rather than expanding their width. Frac-Connections retain partial benefits of Hyper-Connections while reducing memory consumption. To validate their effectiveness, we conduct large-scale experiments on language tasks, with the largest being a 7B MoE model trained on up to 3T tokens, demonstrating that Frac-Connections significantly outperform residual connections.
- Abstract(参考訳): 残差接続は現代のディープラーニングアーキテクチャの中心であり、勾配の消滅を緩和することで、非常に深いネットワークのトレーニングを可能にする。
ハイパーコネクションは最近、異なる深さで複数の接続強度を導入し、勾配消滅と表現崩壊の間のシーソー効果に対処することで、残差接続を一般化した。
しかし、ハイパーコネクションは隠れ状態の幅を広げることでメモリアクセスコストを増大させる。
本稿では,隠蔽状態の幅を広げるのではなく,複数の部分に分割する新しい手法であるフラックス接続を提案する。
Frac-Connectionsは、メモリ消費を減らしながら、Hyper-Connectionsの部分的なメリットを保持します。
最大3Tトークンでトレーニングされた7B MoEモデルで,Frac-Connectionsが残差接続を著しく上回ることを示す。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Contractive error feedback for gradient compression [60.05809370598166]
本稿では,ConEF(Contractive error feedback)と呼ばれる通信効率のよい手法を提案する。
メモリを効率よく管理しないエラーフィードバック(EFSGD)を持つSGDとは対照的に、ConEFはコンバージェンスとメモリ使用率のスイートスポットを取得する。
我々は、画像分類、言語モデリング、機械翻訳を含む様々な学習タスクにおいて、ConEFを実証的に検証する。
論文 参考訳(メタデータ) (2023-12-13T21:54:21Z) - Towards Redundancy-Free Sub-networks in Continual Learning [144.44476145253202]
カタストロフィック・フォージッティング(CF)は、継続的な学習において顕著な問題である。
サブネットワークにおける冗長性を解消するため,textbfunderlineInformation underlineBottleneck underlineMasked Sub-network (IBM)を提案する。
論文 参考訳(メタデータ) (2023-12-01T02:29:52Z) - Towards Federated Learning Under Resource Constraints via Layer-wise
Training and Depth Dropout [33.308067180286045]
クライアントが限られたリソースを持つ場合、フェデレーション学習を大規模モデルにスケールすることは難しい。
我々は、クライアント毎のメモリ、計算、通信コストを同時に削減するために、フェデレート・レイヤワイズ・ラーニングを導入します。
また、トレーニング中に凍結層をランダムにドロップする補完技術であるFederated Depth Dropoutを導入し、リソース使用量をさらに削減する。
論文 参考訳(メタデータ) (2023-09-11T03:17:45Z) - Tailor: Altering Skip Connections for Resource-Efficient Inference [15.72369066115206]
ハードウェア・ソフトウェア・コードサイン・アプローチに取り組み、スキップ接続をハードウェアに最適化できることが示される。
ハードウェアを意識したトレーニングアルゴリズムが、ハードウェアコストを削減するために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮するコードサインツールであるTailorを紹介した。
論文 参考訳(メタデータ) (2023-01-18T01:19:36Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。