Fugu-MT 論文翻訳(概要): Frac-Connections: Fractional Extension of Hyper-Connections

論文の概要: Frac-Connections: Fractional Extension of Hyper-Connections

arxiv url: http://arxiv.org/abs/2503.14125v1
Date: Tue, 18 Mar 2025 10:37:50 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:12.756425
Title: Frac-Connections: Fractional Extension of Hyper-Connections
Title（参考訳）: Frac-Connections: ハイパーコネクションのフラクショナル拡張
Authors: Defa Zhu, Hongzhi Huang, Jundong Zhou, Zihao Huang, Yutao Zeng, Banggu Wu, Qiyang Min, Xun Zhou,
Abstract要約: Frac-Connectionsは、隠れた状態を幅を広げるのではなく、複数の部分に分割する新しいアプローチである。我々は,最大3Tトークンでトレーニングされた7B MoEモデルで,言語タスクに関する大規模な実験を行っている。
参考スコア（独自算出の注目度）: 9.370798712025104
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Residual connections are central to modern deep learning architectures, enabling the training of very deep networks by mitigating gradient vanishing. Hyper-Connections recently generalized residual connections by introducing multiple connection strengths at different depths, thereby addressing the seesaw effect between gradient vanishing and representation collapse. However, Hyper-Connections increase memory access costs by expanding the width of hidden states. In this paper, we propose Frac-Connections, a novel approach that divides hidden states into multiple parts rather than expanding their width. Frac-Connections retain partial benefits of Hyper-Connections while reducing memory consumption. To validate their effectiveness, we conduct large-scale experiments on language tasks, with the largest being a 7B MoE model trained on up to 3T tokens, demonstrating that Frac-Connections significantly outperform residual connections.
Abstract（参考訳）: 残差接続は現代のディープラーニングアーキテクチャの中心であり、勾配の消滅を緩和することで、非常に深いネットワークのトレーニングを可能にする。ハイパーコネクションは最近、異なる深さで複数の接続強度を導入し、勾配消滅と表現崩壊の間のシーソー効果に対処することで、残差接続を一般化した。しかし、ハイパーコネクションは隠れ状態の幅を広げることでメモリアクセスコストを増大させる。本稿では,隠蔽状態の幅を広げるのではなく,複数の部分に分割する新しい手法であるフラックス接続を提案する。 Frac-Connectionsは、メモリ消費を減らしながら、Hyper-Connectionsの部分的なメリットを保持します。最大3Tトークンでトレーニングされた7B MoEモデルで,Frac-Connectionsが残差接続を著しく上回ることを示す。

関連論文リスト

Model Parallelism With Subnetwork Data Parallelism [16.716404770696734]
本稿では,個別の作業者に対して,モデルの小型で構造化された作業をトレーニングすることで,メモリ要求を低減できる新しい手法を提案する。我々は,各パラメータの均一な表現を保証する原理によって導かれる2つのサブネットワーク構築戦略を評価する。予備実験では、性能を損なうことなく20～40%のメモリ使用量の削減を実現し、我々のアプローチの可能性を強調した。
論文参考訳（メタデータ） (2025-07-11T21:25:11Z)
Hyper-Connections [12.156329792353372]
残余接続の代替として機能する,単純かつ効果的な方法であるハイパーコネクションを提案する。大規模言語モデルの事前学習に焦点をあてた実験を行い、高結合性により性能が大幅に向上した。我々は、この手法が幅広いAI問題に広く適用され、有益なものになることを期待する。
論文参考訳（メタデータ） (2024-09-29T07:57:07Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。 Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文参考訳（メタデータ） (2024-01-24T03:03:17Z)
Contractive error feedback for gradient compression [60.05809370598166]
本稿では,ConEF(Contractive error feedback)と呼ばれる通信効率のよい手法を提案する。メモリを効率よく管理しないエラーフィードバック(EFSGD)を持つSGDとは対照的に、ConEFはコンバージェンスとメモリ使用率のスイートスポットを取得する。我々は、画像分類、言語モデリング、機械翻訳を含む様々な学習タスクにおいて、ConEFを実証的に検証する。
論文参考訳（メタデータ） (2023-12-13T21:54:21Z)
Towards Redundancy-Free Sub-networks in Continual Learning [144.44476145253202]
カタストロフィック・フォージッティング(CF)は、継続的な学習において顕著な問題である。サブネットワークにおける冗長性を解消するため,textbfunderlineInformation underlineBottleneck underlineMasked Sub-network (IBM)を提案する。
論文参考訳（メタデータ） (2023-12-01T02:29:52Z)
Towards Federated Learning Under Resource Constraints via Layer-wise Training and Depth Dropout [33.308067180286045]
クライアントが限られたリソースを持つ場合、フェデレーション学習を大規模モデルにスケールすることは難しい。我々は、クライアント毎のメモリ、計算、通信コストを同時に削減するために、フェデレート・レイヤワイズ・ラーニングを導入します。また、トレーニング中に凍結層をランダムにドロップする補完技術であるFederated Depth Dropoutを導入し、リソース使用量をさらに削減する。
論文参考訳（メタデータ） (2023-09-11T03:17:45Z)
UniPT: Universal Parallel Tuning for Transfer Learning with Efficient Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文参考訳（メタデータ） (2023-08-28T05:38:43Z)
Tailor: Altering Skip Connections for Resource-Efficient Inference [15.72369066115206]
ハードウェア・ソフトウェア・コードサイン・アプローチに取り組み、スキップ接続をハードウェアに最適化できることが示される。ハードウェアを意識したトレーニングアルゴリズムが、ハードウェアコストを削減するために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮するコードサインツールであるTailorを紹介した。
論文参考訳（メタデータ） (2023-01-18T01:19:36Z)
Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。 MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文参考訳（メタデータ） (2022-01-03T02:32:06Z)
ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。 ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文参考訳（メタデータ） (2021-10-11T14:45:00Z)
MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文参考訳（メタデータ） (2021-07-14T19:45:49Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。