論文の概要: Unveiling the Mystery of Weight in Large Foundation Models: Gaussian Distribution Never Fades
- arxiv url: http://arxiv.org/abs/2501.10661v1
- Date: Sat, 18 Jan 2025 05:43:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:31.966451
- Title: Unveiling the Mystery of Weight in Large Foundation Models: Gaussian Distribution Never Fades
- Title(参考訳): 巨大ファンデーションモデルで体重の謎を解き明かす:ガウス分布は決して消えない
- Authors: Chongjie Si, Jingjing Jiang, Wei Shen,
- Abstract要約: 本稿では,大規模基盤モデルの重み付けの基礎となるメカニズムの先駆的な探索について述べる。
これらの重みは、時折鋭く、反転したT字型、あるいは線形パターンを持つガウス分布に主に従っている。
最適重みはゼロ平均、対称性、スパーシティを示すべきであり、スパース値はガウス分布と数個の外れ値である。
- 参考スコア(独自算出の注目度): 14.113021234825084
- License:
- Abstract: This paper presents a pioneering exploration of the mechanisms underlying large foundation models' (LFMs) weights, aiming to simplify AI research. Through extensive observation and analysis on prevailing LFMs, we find that regardless of initialization strategies, their weights predominantly follow a Gaussian distribution, with occasional sharp, inverted T-shaped, or linear patterns. We further discover that the weights share the i.i.d. properties of Gaussian noise, and explore their direct relationship. We find that transformation weights can be derived from Gaussian noise, and they primarily serve to increase the standard deviation of pre-trained weights, with their standard deviation growing with layer depth. In other words, transformation weights broaden the acceptable deviation from the optimal weights, facilitating adaptation to downstream tasks. Building upon the above conclusions, we thoroughly discussed the nature of optimal weights, ultimately concluding that they should exhibit zero-mean, symmetry, and sparsity, with the sparse values being a truncated Gaussian distribution and a few outliers. Our experiments in LFM adaptation and editing demonstrate the effectiveness of these insights. We hope these findings can provide a foundational understanding to pave the way for future advancements in the LFM community.
- Abstract(参考訳): 本稿では,AI研究の簡略化を目的とした,大規模基盤モデル(LFM)重み付けの基礎となるメカニズムの先駆的な探索について述べる。
広く普及しているLFMの観察と分析により,初期化戦略によらず,その重みは時折鋭く,逆転したT字型あるいは線形パターンを持つガウス分布に主に従っていることがわかった。
さらに、重みがガウス雑音のi.d.特性を共有することを発見し、それらの直接的な関係を探求する。
変換重みはガウス雑音から導き出すことができ、主に事前学習した重みの標準偏差を増大させ、その標準偏差は層深さとともに増加する。
言い換えれば、トランスフォーメーションウェイトは最適なウェイトから許容される偏差を広げ、下流タスクへの適応を促進する。
以上の結論に基づいて、最適重みの性質を徹底的に議論し、最終的に、スパース値がガウス分布と数個の外値を持つゼロ平均、対称性、空間性を示すべきであると結論づけた。
LFMの適応と編集における実験は,これらの知見の有効性を実証している。
これらの知見が, LFMコミュニティにおける今後の進歩の道を開くための基礎的な理解を与えてくれることを願っている。
関連論文リスト
- Revisiting Essential and Nonessential Settings of Evidential Deep Learning [70.82728812001807]
Evidential Deep Learning (EDL) は不確実性推定の新しい手法である。
本報告では,EDLの簡易かつ効果的な拡張型であるRe-EDLを提案する。
論文 参考訳(メタデータ) (2024-10-01T04:27:07Z) - GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs [51.02233412547456]
我々は,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW)と呼ばれる新しいPEFT法を提案する。
本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。
LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-27T14:41:14Z) - A Mean Field Ansatz for Zero-Shot Weight Transfer [9.910243630243079]
平均場アンサッツを導入し,重量移動の理論的説明を行う。
GPT-3 や Llama-3.1 などの簡単な例や LLM を探索することで, RC アンザッツを実証的に検証する。
ゼロショット重み移動の理論的支援を提供する適切な仮定の下では,平均場視点が適切であることを示す。
論文 参考訳(メタデータ) (2024-08-16T11:53:52Z) - Theoretical Insights for Diffusion Guidance: A Case Study for Gaussian
Mixture Models [59.331993845831946]
拡散モデルは、所望の特性に向けてサンプル生成を操るために、スコア関数にタスク固有の情報を注入することの恩恵を受ける。
本稿では,ガウス混合モデルの文脈における拡散モデルに対する誘導の影響を理解するための最初の理論的研究を提供する。
論文 参考訳(メタデータ) (2024-03-03T23:15:48Z) - Deep Out-of-Distribution Uncertainty Quantification via Weight Entropy Maximization [7.182234028830364]
本稿では,ベイジアン法とアンサンブル法を用いて,ディープラーニングにおける不確実な定量化と分布外検出を扱う。
ニューラルネットワークを考えると、平均的な経験的リスクと重量分布エントロピーの間のトレードオフとして定義されたそのような分布を構築するために、実用的な最適化が導出される。
論文 参考訳(メタデータ) (2023-09-27T14:46:10Z) - Learning to Re-weight Examples with Optimal Transport for Imbalanced
Classification [74.62203971625173]
不均衡データは、ディープラーニングに基づく分類モデルに課題をもたらす。
不均衡なデータを扱うための最も広く使われているアプローチの1つは、再重み付けである。
本稿では,分布の観点からの最適輸送(OT)に基づく新しい再重み付け手法を提案する。
論文 参考訳(メタデータ) (2022-08-05T01:23:54Z) - Nonparametric mixture MLEs under Gaussian-smoothed optimal transport
distance [0.39373541926236766]
我々は、真のデータ生成分布を近似するために、非平滑なフレームワークの代わりにGOTフレームワークを適用する。
我々の分析における重要なステップは、ガウス畳み込みリプシッツ函数の新しいジャクソン型近似の確立である。
この洞察は、非パラメトリックMLEと新しいGOTフレームワークを分析する既存のテクニックを橋渡しする。
論文 参考訳(メタデータ) (2021-12-04T20:05:58Z) - Deep Speaker Vector Normalization with Maximum Gaussianality Training [13.310988353839237]
ディープスピーカ埋め込みの鍵となる問題は、結果のディープスピーカベクトルが不規則に分散する傾向があることである。
従来の研究では,新しい識別正規化フロー(DNF)モデルに基づく深部正規化手法を提案した。
この顕著な成功にもかかわらず、DNFモデルによって生成される潜伏符号は概して同質でもガウス的でもないことを実証的に見出した。
本稿では,潜在符号のガウス性を直接最大化する最大ガウス性(MG)トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-30T09:42:06Z) - Neural networks with late-phase weights [66.72777753269658]
学習後期に重みのサブセットを組み込むことで,SGDの解をさらに改善できることを示す。
学習の終わりに、重み空間における空間平均を取ることにより、1つのモデルを取得する。
論文 参考訳(メタデータ) (2020-07-25T13:23:37Z) - Bayesian Deep Learning and a Probabilistic Perspective of Generalization [56.69671152009899]
ディープアンサンブルはベイズ辺化を近似する有効なメカニズムであることを示す。
また,アトラクションの流域内での辺縁化により,予測分布をさらに改善する関連手法を提案する。
論文 参考訳(メタデータ) (2020-02-20T15:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。