論文の概要: Exploring and Reshaping the Weight Distribution in LLM
- arxiv url: http://arxiv.org/abs/2509.00046v1
- Date: Sun, 24 Aug 2025 10:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-07 09:10:15.272641
- Title: Exploring and Reshaping the Weight Distribution in LLM
- Title(参考訳): LLMにおける重量分布の探索と再構成
- Authors: Chunming Ye, Songzhou Li, Xu Xu,
- Abstract要約: 本稿では,異なるタイプの層間の重み分布の相関について検討する。
これらの相関関係が LoRA トレーニングの有効性に与える影響について検討する。
- 参考スコア(独自算出の注目度): 1.839434533570107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of Large Language Models is influenced by their characteristics such as architecture, model sizes, decoding methods and so on. Due to differences in structure or function, the weights in different layers of large models have varying distributions. This paper explores the correlations between different types of layers in terms of weights distribution and studies the potential impact of these correlations on LoRA training effectiveness. Firstly, the study reveals that in the model the cosine distances between weights of different layers manifest power-law distribution. We extract Query-projection, down-projection and other weight matrices from the self-attention layers and MLP layers, calculate the singular values of the matrices using singular value decomposition, and organize a certain number of singular values into matrices according to projection's type. By analyzing the probability distribution of the cosine distances between these matrices, it is found that the cosine distances values between them have distinct power-law distribution characteristics. Secondly, based on the results of distance calculations and analysis across different layers of model, a qualitative method is proposed to describe the distribution characteristics of different models. Next, to construct weights that align with the distribution characteristics, a data generator is designed using a combination of Gaussian process and Pareto distribution functions. The generator is used to simulate the generation of data that aligns with specific distribution characteristics. Finally, based on the aforementioned distribution characteristics and data generation method, the weights in LoRA initialization are reshaped for training. Experimental results indicate that, without altering the model structure or training process, this method achieves a certain improvement in the performance of LoRA training.
- Abstract(参考訳): 大規模言語モデルの性能は、アーキテクチャ、モデルサイズ、復号化メソッドなど、その特性に影響を受けている。
構造や関数の違いにより、大きなモデルの異なる層の重みは異なる分布を持つ。
本稿では,重み分布の観点から異なるタイプの層間の相関関係について検討し,これらの相関関係がLoRAトレーニングの有効性に与える影響について検討する。
まず、このモデルでは、異なる層の重みの間の余弦距離が、パワー・ルールの分布を示すことが判明した。
我々は,自己アテンション層およびMLP層からクエリ投影,ダウンプロジェクション,その他の重み行列を抽出し,特異値分解を用いて行列の特異値を計算し,射影の型に応じて特定の特異値を行列に整理する。
これらの行列間のコサイン距離の確率分布を解析することにより、それらの間のコサイン距離の値は、異なるパワー-ロー分布特性を持つことがわかった。
次に, モデル層間の距離計算と解析結果に基づいて, モデルの分布特性を定性的に記述する手法を提案する。
次に、分布特性に整合した重みを構築するために、ガウス過程とパレート分布関数の組み合わせを用いてデータジェネレータを設計する。
ジェネレータは、特定の分布特性に沿ったデータの生成をシミュレートするために使用される。
最後に、上記の分布特性とデータ生成法に基づいて、LoRA初期化時の重みをトレーニングのために再生成する。
実験結果から,モデル構造やトレーニングプロセスを変更することなく,LoRA訓練の性能を一定の改善できることが示唆された。
関連論文リスト
- Cluster weighted models with multivariate skewed distributions for functional data [0.0]
本稿では,関数線形回帰モデルと3つのスキュート多変量分布の混合に基づくクラスタリング手法 funWeightClustSkew を提案する。
本手法は関数型高次元データクラスタリング(funHDDC)手法の枠組みに従う。
funWeightlustClustSkewのシミュレーションデータとAir Qualityデータセットの性能について説明する。
論文 参考訳(メタデータ) (2025-04-17T06:17:06Z) - Tabular data generation with tensor contraction layers and transformers [0.35998666903987897]
テンソル縮退層と変圧器を用いて,データ生成に埋め込み表現を用いることの可能性を検討する。
OpenML CC18スイートの複数のデータセットを対象に実施した実証的研究では,密度推定モデルと機械学習効率指標を比較した。
この結果から得られた主な特徴は、テンソル収縮層の助けを借りて埋め込み表現を利用することで密度推定の指標が向上するが、機械学習効率の観点からは競合性能は維持できるということである。
論文 参考訳(メタデータ) (2024-12-06T19:34:13Z) - On the Trajectory Regularity of ODE-based Diffusion Sampling [79.17334230868693]
拡散に基づく生成モデルは微分方程式を用いて、複素データ分布と抽出可能な事前分布の間の滑らかな接続を確立する。
本稿では,拡散モデルのODEに基づくサンプリングプロセスにおいて,いくつかの興味深い軌道特性を同定する。
論文 参考訳(メタデータ) (2024-05-18T15:59:41Z) - Fusion of Gaussian Processes Predictions with Monte Carlo Sampling [61.31380086717422]
科学と工学において、私たちはしばしば興味のある変数の正確な予測のために設計されたモデルで作業します。
これらのモデルが現実の近似であることを認識し、複数のモデルを同じデータに適用し、結果を統合することが望ましい。
論文 参考訳(メタデータ) (2024-03-03T04:21:21Z) - Empirical Density Estimation based on Spline Quasi-Interpolation with
applications to Copulas clustering modeling [0.0]
密度推定は、様々な分野において、基礎となるデータの分布をモデル化し理解するための基礎的な手法である。
本稿では,擬似補間による密度の単変量近似を提案する。
提案アルゴリズムは人工データセットと実データセットで検証される。
論文 参考訳(メタデータ) (2024-02-18T11:49:38Z) - Learning Joint Latent Space EBM Prior Model for Multi-layer Generator [44.4434704520236]
多層ジェネレータモデルの学習における基礎的問題について検討する。
本稿では,全層にまたがる待ち行列空間上のエネルギーモデル (EBM) を提案する。
実験により、学習したモデルが高品質な画像を生成する際に表現できることが実証された。
論文 参考訳(メタデータ) (2023-06-10T00:27:37Z) - Efficient Training of Energy-Based Models Using Jarzynski Equality [13.636994997309307]
エネルギーベースモデル(英: Energy-based model、EBM)は、統計物理学にインスパイアされた生成モデルである。
モデルパラメータに対する勾配の計算には、モデルの分布をサンプリングする必要がある。
ここでは、ジャジンスキーの等式に基づく非平衡熱力学の結果を用いて、この計算を効率的に行う方法を示す。
論文 参考訳(メタデータ) (2023-05-30T21:07:52Z) - Score Approximation, Estimation and Distribution Recovery of Diffusion
Models on Low-Dimensional Data [68.62134204367668]
本稿では,未知の低次元線形部分空間上でデータをサポートする場合の拡散モデルのスコア近似,推定,分布回復について検討する。
適切に選択されたニューラルネットワークアーキテクチャでは、スコア関数を正確に近似し、効率的に推定することができる。
推定スコア関数に基づいて生成された分布は、データ幾何学構造を捕捉し、データ分布の近傍に収束する。
論文 参考訳(メタデータ) (2023-02-14T17:02:35Z) - Learning with Density Matrices and Random Features [44.98964870180375]
密度行列は、量子系の統計状態を記述する。
量子系の量子的不確実性と古典的不確実性の両方を表現することは強力な形式主義である。
本稿では,機械学習モデルのビルディングブロックとして密度行列をどのように利用できるかを検討する。
論文 参考訳(メタデータ) (2021-02-08T17:54:59Z) - Model Fusion with Kullback--Leibler Divergence [58.20269014662046]
異種データセットから学習した後続分布を融合する手法を提案する。
我々のアルゴリズムは、融合モデルと個々のデータセット後部の両方に対する平均場仮定に依存している。
論文 参考訳(メタデータ) (2020-07-13T03:27:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。