論文の概要: Analysis on distribution and clustering of weight
- arxiv url: http://arxiv.org/abs/2509.19122v1
- Date: Tue, 23 Sep 2025 15:08:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.918296
- Title: Analysis on distribution and clustering of weight
- Title(参考訳): 重量の分布とクラスター化に関する解析
- Authors: Chunming Ye, Wenquan Tian, Yalan Gao, Songzhou Li,
- Abstract要約: モデルの特徴を記述するために, 2種類のベクトル標準偏差ベクトルとクラスタリングベクトルを提案する。
この研究により、これらの2つのベクトルは、異なるモデルを効果的に区別し、同一のモデルの類似性を明確に示すことができることが明らかになった。
- 参考スコア(独自算出の注目度): 0.6533091401094101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study on architecture and parameter characteristics remains the hot topic in the research of large language models. In this paper we concern with the characteristics of weight which are used to analyze the correlations and differences between models. Two kinds of vectors-standard deviation vector and clustering vector-are proposed to describe features of models. In the first case, the weights are assumed to follow normal distribution. The standard deviation values of projection matrices are normalized to form Standard-Deviation Vector, representing the distribution characteristics of models. In the second case, the singular values from each weight projection matrix are extracted and grouped by K-Means algorithm. The grouped data with the same type matrix are combined as Clustering Vector to represent the correlation characteristics of models' weights. The study reveals that these two vectors can effectively distinguish between different models and clearly show the similarities among models of the same family. Moreover, after conducting LoRA fine-tuning with different datasets and models, it is found that the distribution of weights represented by standard deviation vector is directly influenced by the dataset, but the correlations between different weights represented by clustering vector remain unaffected and maintain a high consistency with the pre-trained model.
- Abstract(参考訳): アーキテクチャとパラメータ特性の研究は、大きな言語モデルの研究においてホットな話題である。
本稿では,モデル間の相関や差異を分析するために用いられる重みの特性について考察する。
モデルの特徴を記述するために, 2種類のベクトル標準偏差ベクトルとクラスタリングベクトルを提案する。
第一の場合、重みは正規分布に従うと仮定される。
射影行列の標準偏差値は標準偏差ベクトルとして正規化され、モデルの分布特性を表す。
第2のケースでは、各重み予測行列からの特異値を抽出し、K-Meansアルゴリズムでグループ化する。
モデル重みの相関特性を表すために、同じ型行列を持つ群データをクラスタリングベクトルとして結合する。
この研究により、これらの2つのベクトルは、異なるモデルを効果的に区別し、同一のモデルの類似性を明確に示すことができることが明らかになった。
さらに,異なるデータセットやモデルを用いてLoRA微調整を行った結果,標準偏差ベクトルで表される重みの分布はデータセットの影響を直接受けていることがわかったが,クラスタリングベクトルで表される重みの相関は影響を受けておらず,事前訓練されたモデルと高い整合性を維持している。
関連論文リスト
- Exploring and Reshaping the Weight Distribution in LLM [1.839434533570107]
本稿では,異なるタイプの層間の重み分布の相関について検討する。
これらの相関関係が LoRA トレーニングの有効性に与える影響について検討する。
論文 参考訳(メタデータ) (2025-08-24T10:27:14Z) - Approximation-Generalization Trade-offs under (Approximate) Group Equivariance [6.368871731116769]
対称性によるタスク固有の帰納バイアスの明示的な取り込みは、高性能機械学習モデルの開発における一般的な設計規範として現れている。
本稿では,タスク固有の対称性を捉えるモデルが一般化にどう貢献するかを示す,一般的な定量的境界について述べる。
モデル対称性がデータ対称性と一致しない場合のモデルミス特定に関するより一般的な問題について検討する。
論文 参考訳(メタデータ) (2023-05-27T22:53:37Z) - Learning Graphical Factor Models with Riemannian Optimization [70.13748170371889]
本稿では,低ランク構造制約下でのグラフ学習のためのフレキシブルなアルゴリズムフレームワークを提案する。
この問題は楕円分布のペナルティ化された最大推定値として表される。
楕円モデルによく適合する正定行列と定ランクの正半定行列のジオメトリを利用する。
論文 参考訳(メタデータ) (2022-10-21T13:19:45Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - ER: Equivariance Regularizer for Knowledge Graph Completion [107.51609402963072]
我々は、新しい正規化器、すなわち等分散正規化器(ER)を提案する。
ERは、頭と尾のエンティティ間の意味的等価性を利用することで、モデルの一般化能力を高めることができる。
実験結果から,最先端関係予測法よりも明確かつ実質的な改善が示された。
論文 参考訳(メタデータ) (2022-06-24T08:18:05Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - A connection between the pattern classification problem and the General
Linear Model for statistical inference [0.2320417845168326]
両方のアプローチ、すなわち。
GLM および LRM は、異なったドメイン、観察およびラベル ドメインに適用します。
より洗練された予測アルゴリズムに基づく統計的検査を導出する。
MLEベースの推論は、残留スコアを採用し、実際の(実際の)エラーのより良い推定を計算するために上界を含む。
論文 参考訳(メタデータ) (2020-12-16T12:26:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。