Fugu-MT 論文翻訳(概要): A Large-Scale Exploration of $μ$-Transfer

論文の概要: A Large-Scale Exploration of $μ$-Transfer

arxiv url: http://arxiv.org/abs/2404.05728v1
Date: Mon, 8 Apr 2024 17:59:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 13:26:22.805197
Title: A Large-Scale Exploration of $μ$-Transfer
Title（参考訳）: $μ$-transferの大規模探索
Authors: Lucas Lingle,
Abstract要約: この$mu$-ization(mu$P)は、大規模なニューラルネットワークモデルを構築する際の課題に対する潜在的な解決策を提供する。明らかな約束にもかかわらず、$mu$Pのスケーリングルールはまだ広く採用されていない。我々は、$mu$-Transferが重要なケースの大部分が意図したとおりに機能することを示しているが、そうでない驚くべきケースもいくつか見出す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large neural network models have become a mainstay of natural language processing and computer vision, yet their initialization and learning rates are set in a largely heuristic fashion, potentially varying from paper to paper and one model size to the next. The $\mu$-Parameterization ($\mu$P) offers a potential solution to these challenges, yielding scaling rules for model initialization and learning rates, and reportedly enabling zero-shot hyperparameter transfer from small to large models in a variety of cases. Despite the evident promise, the $\mu$P scaling rules are not yet widely adopted, perhaps due to higher implementation complexity, many variations, or complex theoretical background. This work investigates $\mu$P empirically, focusing on the ubiquitous transformer architecture, and aims to answer a simple question: does $\mu$-Transfer yield optimal learning rates in practice? From models with 2M to 10B parameters, we show that $\mu$-Transfer works as intended for the majority of important cases, but also identify some surprising cases where it may not.
Abstract（参考訳）: 大規模ニューラルネットワークモデルは、自然言語処理とコンピュータビジョンの主流となっているが、その初期化と学習率は、紙から紙、モデルサイズから次のモデルまで様々に、大きくヒューリスティックな方法で設定されている。この$\mu$-Parameterization($\mu$P)は、これらの課題に対する潜在的な解決策を提供し、モデルの初期化と学習率のスケーリングルールを与え、さまざまなケースで小さなモデルから大きなモデルへのゼロショットハイパーパラメータ転送を可能にすると伝えられている。明らかな約束にもかかわらず、$\mu$Pのスケーリングルールはまだ広く採用されていない。本研究は,ユビキタストランスフォーマーアーキテクチャに着目して,実証的に$\mu$Pを調査し,簡単な質問に答えることを目的としている。 2M から 10B のパラメータを持つモデルから、$\mu$-Transfer が重要なケースの大多数を意図したように機能することを示した。

関連論文リスト

$μ$pscaling small models: Principled warm starts and hyperparameter transfer [30.73409211009394]
本稿では,幅広いアーキテクチャやアーキテクチャに適用可能な,原則付きアップスケーリング手法を提案する。本研究では,本手法が現実的なデータセットやアーキテクチャに有効であることを実証的に示す。
論文参考訳（メタデータ） (2026-02-11T05:37:22Z)
How to Set the Learning Rate for Large-Scale Pre-training? [73.03133634525635]
我々はこの調査を2つの異なる研究パラダイムであるフィッティングとトランスファーに定式化する。フィッティングパラダイムでは,探索係数のスケーリング法則を導入し,O(n3) から O(n*C_D*C_) への探索複雑性を予測モデルにより効果的に低減する。我々は、$Transferの原則をMixture of Experts (MoE)アーキテクチャに拡張し、モデル深さ、重量減衰、トークン水平線を含む適用範囲を広げる。
論文参考訳（メタデータ） (2026-01-08T15:55:13Z)
Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models [3.207886496235499]
検証可能な報酬(RLVR)に基づく強化学習で学習した推論モデルを用いて,新たな問題を解決する方法について検討する。 RLVRは、(1)pass@$k$をpass@1に圧縮し、(2)"capability gain"を介して、モデルが以前、$k$で解決できなかった新しい問題を解決することを学習する、という2つの主な方法でパフォーマンスを駆動する。
論文参考訳（メタデータ） (2025-06-16T19:03:06Z)
Neural Incompatibility: The Unbridgeable Gap of Cross-Scale Parametric Knowledge Transfer in Large Language Models [24.017656794423967]
大規模言語モデルは、幅広い知識をエンコードするアクセス可能なパラメータを持つ透明な脳を提供する。主要な研究課題は、象徴的な言語に根ざした伝統的な知識伝達パラダイムを超越することである。パラメータを通して異なるスケールのLSM間で知識を伝達する効果的な方法を模索することは、興味深く価値のある研究の方向性を示す。
論文参考訳（メタデータ） (2025-05-20T14:42:03Z)
Data Mixture Optimization: A Multi-fidelity Multi-scale Bayesian Framework [10.317740844867913]
我々は,SlimPajamaデータセットから,さまざまなデータ構成を用いて,472言語モデルによる事前学習実行をベースとしたシミュレータを構築した。単純な取得関数でさえ、20Mから1Bまでのトレーニングモデル間で、原則化されたトレーニング決定を可能にすることを観察する。
論文参考訳（メタデータ） (2025-03-26T22:19:47Z)
Predictable Scale: Part I, Step Law -- Optimal Hyperparameter Scaling Law in Large Language Model Pretraining [59.369484219304866]
本研究では,100兆のトークンをスクラッチから3,700以上の大規模言語モデル(LLM)に対する前例のない実証的研究を行った。我々は、固定モデルサイズ(N$)とデータセットサイズ(D$)で、ハイパーパラメータのランドスケープは広い最適度で凸性を示すことを実証的に観察した。この洞察に基づいて、我々はステップ法を正式に定義し、実証的に検証する: 最適な学習レートは、$N$と$D$との関係に従うが、最適なバッチサイズは、主に$D$の影響を受け、主に$N$に不変である。
論文参考訳（メタデータ） (2025-03-06T18:58:29Z)
LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文参考訳（メタデータ） (2025-02-19T14:58:48Z)
Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。 PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。 PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文参考訳（メタデータ） (2024-11-28T20:50:40Z)
Warmstarting for Scaling Language Models [47.691182347349894]
モデルのサイズを拡大してパフォーマンスをスケールすることは、現在の大規模言語モデルパラダイムにとって非常にうまく機能しています。現代の規模のデータとモデルに対する高いトレーニングコストは、そのようなトレーニング設定のチューニング方法と到着方法の理解の欠如をもたらす。大型モデルの事前訓練のコストを改善する1つの方法は、より安価にチューニングできる小型モデルから大規模なトレーニングをウォームスタートさせることである。
論文参考訳（メタデータ） (2024-11-11T20:02:29Z)
FINE: Factorizing Knowledge for Initialization of Variable-sized Diffusion Models [35.40065954148091]
FINEはLearngeneフレームワークに基づく、事前訓練されたモデルを利用した下流ネットワークの初期化手法である。事前学習された知識を行列の積(例えば$U$, $Sigma$, $V$)に分解する。これは、特により小さなモデルにおいて、直接事前訓練よりも一貫して優れており、可変モデルのサイズで最先端の結果が得られる。
論文参考訳（メタデータ） (2024-09-28T08:57:17Z)
Efficient Verification-Based Face Identification [50.616875565173274]
効率の良いニューラルモデルで顔認証を行う際の問題点を$f$で検討する。我々のモデルは、23kパラメータと5M浮動小数点演算(FLOPS)しか必要としない、かなり小さな$f$に導かれる。我々は、6つの顔認証データセットを用いて、我々の手法が最先端のモデルよりも同等か優れていることを示す。
論文参考訳（メタデータ） (2023-12-20T18:08:02Z)
Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge [0.704590071265998]
オンラインQ-ラーニング手法のサンプル複雑性について,動的知識が利用可能であったり,効率的に学習できたりした場合に検討する。我々は,$f$の完全知識の下で,$tildemathcalO(textPoly(H)sqrtSAT)$ regretを達成する楽観的なQ-ラーニングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-12-19T19:53:58Z)
A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。 MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文参考訳（メタデータ） (2023-11-26T08:31:57Z)
Integrated Variational Fourier Features for Fast Spatial Modelling with Gaussian Processes [7.5991638205413325]
トレーニングポイントが$N$の場合、正確な推論は$O(N3)$コストを持ち、$M ll N$機能により、アートスパース変分メソッドの状態は$O(NM2)$コストを持つ。近年、空間モデリングのような低次元タスクにおいて優れた性能を持つ$O(M3)$コストを約束する手法が提案されているが、最もよく使われるカーネルを除いて、非常に限られた種類のカーネルでしか動作しない。本稿では,Fourier機能の統合について提案する。これは,これらのパフォーマンスのメリットを,より広範な定常的コのクラスに拡張するものである。
論文参考訳（メタデータ） (2023-08-27T15:44:28Z)
An Experimental Design Perspective on Model-Based Reinforcement Learning [73.37942845983417]
環境からの状態遷移を観察するのは費用がかかる。標準RLアルゴリズムは通常、学習するために多くの観測を必要とする。本稿では,マルコフ決定過程について,状態-作用対がどの程度の情報を提供するかを定量化する獲得関数を提案する。
論文参考訳（メタデータ） (2021-12-09T23:13:57Z)
Breaking the Sample Complexity Barrier to Regret-Optimal Model-Free Reinforcement Learning [52.76230802067506]
漸進的強化学習における後悔を最小限に抑えるために,新しいモデルフリーアルゴリズムを提案する。提案アルゴリズムは、2つのQ-ラーニングシーケンスの助けを借りて、初期設定された参照更新ルールを用いる。初期の分散還元法の設計原理は、他のRL設定とは独立した関心を持つかもしれない。
論文参考訳（メタデータ） (2021-10-09T21:13:48Z)
Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文参考訳（メタデータ） (2021-05-31T16:12:44Z)
On Function Approximation in Reinforcement Learning: Optimism in the Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。私たちの後悔の限界はエピソードの数とは無関係です。
論文参考訳（メタデータ） (2020-11-09T18:32:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。