Fugu-MT 論文翻訳(概要): u-$μ$P: The Unit-Scaled Maximal Update Parametrization

論文の概要: u-$μ$P: The Unit-Scaled Maximal Update Parametrization

arxiv url: http://arxiv.org/abs/2407.17465v1
Date: Wed, 24 Jul 2024 17:58:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-25 12:55:41.678191
Title: u-$μ$P: The Unit-Scaled Maximal Update Parametrization
Title（参考訳）: u-$μ$P: 単位スケールの最大更新パラメトリゼーション
Authors: Charlie Blake, Constantin Eichenberg, Josef Dean, Lukas Balles, Luke Y. Prince, Björn Deiseroth, Andres Felipe Cruz-Salinas, Carlo Luschi, Samuel Weinbach, Douglas Orr,
Abstract要約: 我々は、u-mu$Pという新しいスキームを提示し、ユニットスケーリングと組み合わせることで、$mu$Pを改善する。 2つのテクニックには自然な親和性がある。$mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証するとともに、ユニットスケーリングはアクティベーション、ウェイト、勾配が1つのスケールでトレーニングを開始することを保証します。
参考スコア（独自算出の注目度）: 4.275373946090221
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: The Maximal Update Parametrization ($\mu$P) aims to make the optimal hyperparameters (HPs) of a model independent of its size, allowing them to be swept using a cheap proxy model rather than the full-size target model. We present a new scheme, u-$\mu$P, which improves upon $\mu$P by combining it with Unit Scaling, a method for designing models that makes them easy to train in low-precision. The two techniques have a natural affinity: $\mu$P ensures that the scale of activations is independent of model size, and Unit Scaling ensures that activations, weights and gradients begin training with a scale of one. This synthesis opens the door to a simpler scheme, whose default values are near-optimal. This in turn facilitates a more efficient sweeping strategy, with u-$\mu$P models reaching a lower loss than comparable $\mu$P models and working out-of-the-box in FP8.
Abstract（参考訳）: Maximal Update Parametrization$\mu$P)は、モデルのサイズに依存しない最適なハイパーパラメータ(HP)を作成することを目的としている。我々は,低精度で容易にトレーニングできるモデルの設計方法であるUnit Scalingと組み合わせることで,$\mu$Pを改善する新しいスキーム u-$\mu$P を提案する。 2つのテクニックには自然な親和性がある:$\mu$Pはアクティベーションのスケールがモデルサイズに依存しないことを保証する。この合成は、デフォルト値がほぼ最適である単純なスキームへの扉を開く。これにより、u-$\mu$Pモデルが同等の$\mu$Pモデルよりも低損失に達し、FP8のアウト・オブ・ザ・ボックスが動作することにより、より効率的なスイーピング戦略が実現される。

関連論文リスト

P$^2$U: Progressive Precision Update For Efficient Model Distribution [2.3349787245442966]
この問題に対処するために,プログレッシブ精度更新(P$2$U)を提案する。元の高精度モデルを送信する代わりに、P$2$Uは低ビット精度モデルを送信する。 P$2$Uは、精度、帯域幅使用量、レイテンシのトレードオフを一貫して達成する。
論文参考訳（メタデータ） (2025-06-28T12:47:04Z)
Collaborative LLM Inference via Planning for Efficient Reasoning [50.04696654679751]
本稿では,プランナーモデルがまず,その問題の蒸留および高レベルの抽象化として定義されたプランを生成するテストタイム協調フレームワークを提案する。小型と大型のモデルは、プランナーと理性士として交代で働き、複雑なタスクを協調的に解決するために、多ラウンドのカスケードでプランを交換する。提案手法は,強力なプロプライエタリモデルに匹敵する精度を実現し,有償推論への依存を著しく低減する。
論文参考訳（メタデータ） (2025-06-13T08:35:50Z)
PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。 PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文参考訳（メタデータ） (2024-07-02T17:24:04Z)
Single Parent Family: A Spectrum of Family Members from a Single Pre-Trained Foundation Model [20.054342930450055]
本稿では,大規模言語モデルの圧縮に適したプログレッシブ・ローランク分解法(PLRD)を提案する。 PLRDは計算オーバーヘッドとエネルギー消費を大幅に削減する。この結果から,PLRD は LLM の効率的なスケーリングのための新しい標準となる可能性が示唆された。
論文参考訳（メタデータ） (2024-06-28T15:27:57Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。 $textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文参考訳（メタデータ） (2023-10-11T06:10:07Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文参考訳（メタデータ） (2021-10-09T21:13:48Z)
Near-Optimal Reward-Free Exploration for Linear Mixture MDPs with Plug-in Solver [32.212146650873194]
報酬信号のガイダンスを使わずにRLモデルを効率的に学習するためのアプローチを提案する。特に、私たちは、探索フェーズにおけるモデル学習に集中するプラグインソルバアプローチを採用しています。新たな探索アルゴリズムを確立することで,プラグインアプローチは環境との相互作用を$tildeO(d2H3/epsilon2)$とすることでモデルを学習することを示す。
論文参考訳（メタデータ） (2021-10-07T07:59:50Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
Adversarial robustness against multiple $l_p$-threat models at the price of one and how to quickly fine-tune robust models to another threat model [79.05253587566197]
対向的堅牢性を実現するために, 対向的トレーニング (AT) を単一$l_p$-threatモデルで行うことが広く議論されている。本稿では,$l_p$-threatモデルの結合に対する対角的ロバスト性を実現するための,シンプルで効率的なトレーニング手法を開発する。
論文参考訳（メタデータ） (2021-05-26T12:20:47Z)
Learning the Stein Discrepancy for Training and Evaluating Energy-Based Models without Sampling [30.406623987492726]
非正規化密度モデルの評価と訓練のための新しい手法を提案する。データ密度$p(x)$とデータのベクトル関数で定義されるモデル密度$q(x)$とのスタイン差を推定する。これは、既存の手法を高次元データで上回る、新しい適合性テストをもたらす。
論文参考訳（メタデータ） (2020-02-13T16:39:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。