論文の概要: A Mean Field Ansatz for Zero-Shot Weight Transfer
- arxiv url: http://arxiv.org/abs/2408.08681v1
- Date: Fri, 16 Aug 2024 11:53:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-19 15:45:34.977656
- Title: A Mean Field Ansatz for Zero-Shot Weight Transfer
- Title(参考訳): ゼロショット重量移動のための平均場アンサッツ
- Authors: Xingyuan Chen, Wenwei Kuang, Lei Deng, Wei Han, Bo Bai, Goncalo dos Reis,
- Abstract要約: 平均場アンサッツを導入し,重量移動の理論的説明を行う。
GPT-3 や Llama-3.1 などの簡単な例や LLM を探索することで, RC アンザッツを実証的に検証する。
ゼロショット重み移動の理論的支援を提供する適切な仮定の下では,平均場視点が適切であることを示す。
- 参考スコア(独自算出の注目度): 9.910243630243079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pre-training cost of large language models (LLMs) is prohibitive. One cutting-edge approach to reduce the cost is zero-shot weight transfer, also known as model growth for some cases, which magically transfers the weights trained in a small model to a large model. However, there are still some theoretical mysteries behind the weight transfer. In this paper, inspired by prior applications of mean field theory to neural network dynamics, we introduce a mean field ansatz to provide a theoretical explanation for weight transfer. Specifically, we propose the row-column (RC) ansatz under the mean field point of view, which describes the measure structure of the weights in the neural network (NN) and admits a close measure dynamic. Thus, the weights of different sizes NN admit a common distribution under proper assumptions, and weight transfer methods can be viewed as sampling methods. We empirically validate the RC ansatz by exploring simple MLP examples and LLMs such as GPT-3 and Llama-3.1. We show the mean-field point of view is adequate under suitable assumptions which can provide theoretical support for zero-shot weight transfer.
- Abstract(参考訳): 大規模言語モデル(LLM)の事前学習費用は禁じられている。
コスト削減のための最先端のアプローチの1つはゼロショット重量移動(英語版)であり、いくつかのケースではモデル成長(英語版)としても知られ、小さなモデルで訓練された重量を魔法のように大きなモデルに転送する。
しかし、重量移動の背後には理論的な謎がいくつか残っている。
本稿では,平均場理論のニューラルネットワーク力学への応用に触発されて,平均場アンサッツを導入し,重み移動の理論的説明を行う。
具体的には、ニューラルネットワーク(NN)における重みの計測構造を記述し、密度測定のダイナミックさを許容する、平均フィールド視点下での行カラム(RC)アンザッツを提案する。
したがって、異なる大きさのNNの重みは、適切な仮定の下で共通の分布を認め、重み移動法はサンプリング法とみなすことができる。
GPT-3 や Llama-3.1 のような単純な MLP の例や LLM を探索することで, RC アンザッツを実証的に検証する。
ゼロショット重み移動の理論的支援を提供する適切な仮定の下では,平均場視点が適切であることを示す。
関連論文リスト
- IntLoRA: Integral Low-rank Adaptation of Quantized Diffusion Models [68.55148272295916]
IntLoRAを提案し、整数型(INT)低ランクパラメータを用いて効率限界を押し上げ、量子化拡散モデルに適応させる。
IntLoRAには3つの大きな利点がある: (i) 微調整の場合、事前トレーニングされた重みは量子化され、メモリ使用量が減少する (ii) ストレージの場合、事前トレーニングされた重みと低ランクの重みの両方が、ディスクスペースを少なく消費するINT内にある; (iii) 推論の場合、IntLoRA重みは、効率的な整数乗算やビットシフトによって自然に量子化された事前トレーニングされた重みにマージできる。
論文 参考訳(メタデータ) (2024-10-29T05:50:17Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Data-freeWeight Compress and Denoise for Large Language Models [101.53420111286952]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Maximum Weight Entropy [6.821961232645206]
本稿では,ベイジアン法とアンサンブル法を用いて,ディープラーニングにおける不確実な定量化と分布外検出を扱う。
ニューラルネットワークを考えると、平均的な経験的リスクと重量分布エントロピーの間のトレードオフとして定義されたそのような分布を構築するために、実用的な最適化が導出される。
論文 参考訳(メタデータ) (2023-09-27T14:46:10Z) - Probabilistic Weight Fixing: Large-scale training of neural network
weight uncertainties for quantization [7.2282857478457805]
重み共有量子化は、大規模ニューラルネットワークにおける推論中のエネルギー消費を減らす技術として登場した。
本稿では、ベイズニューラルネットワーク(BNN)に基づく確率的枠組みと、どの重みをどのクラスタ中心に移動できるかを特定する変動緩和法を提案する。
DeiT-Tiny を用いた ImageNet では,最先端の量子化手法 Top-1 の精度が 1.6% 向上した。
論文 参考訳(メタデータ) (2023-09-24T08:04:28Z) - A Theoretical Explanation of Activation Sparsity through Flat Minima and
Adversarial Robustness [29.87592869483743]
ブロック内でのアクティベーション間隔の最近の経験的観察は、自由な計算コストを大幅に削減する機会を提供する。
本稿では、活性化空間の1つの源としての空間性の概念とそれに基づく理論的説明を提案する。
論文 参考訳(メタデータ) (2023-09-06T13:48:40Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - A Generalized Zero-Shot Quantization of Deep Convolutional Neural
Networks via Learned Weights Statistics [1.2891210250935146]
深部畳み込みニューラルネットワークの浮動小数点重みと活性化を固定点表現に量子化すると、メモリフットプリントと推論時間が減少する。
近年,ゼロショット量子化への取り組みが進められている。
本稿では,オリジナルデータやBN層統計に依存しない一般化ゼロショット量子化(GZSQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-06T07:41:16Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。