論文の概要: Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias
- arxiv url: http://arxiv.org/abs/2506.06280v1
- Date: Fri, 06 Jun 2025 17:59:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.583589
- Title: Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias
- Title(参考訳): アスペクト比バイアスのないニューラルネットワークの固有スペクトル解析
- Authors: Yuanzhe Hu, Kinshuk Goel, Vlad Killiakov, Yaoqing Yang,
- Abstract要約: 近年、重量行列の固有スペクトルによるディープニューラルネットワーク(DNN)の診断が活発な研究領域となっている。
重量行列のアスペクト比が重み度推定値に与える影響を考察する。
固定アスペクト比のサブサンプリングによる重み行列の正規化手法であるFARMSを提案する。
- 参考スコア(独自算出の注目度): 4.503999875371634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diagnosing deep neural networks (DNNs) through the eigenspectrum of weight matrices has been an active area of research in recent years. At a high level, eigenspectrum analysis of DNNs involves measuring the heavytailness of the empirical spectral densities (ESD) of weight matrices. It provides insight into how well a model is trained and can guide decisions on assigning better layer-wise training hyperparameters. In this paper, we address a challenge associated with such eigenspectrum methods: the impact of the aspect ratio of weight matrices on estimated heavytailness metrics. We demonstrate that matrices of varying sizes (and aspect ratios) introduce a non-negligible bias in estimating heavytailness metrics, leading to inaccurate model diagnosis and layer-wise hyperparameter assignment. To overcome this challenge, we propose FARMS (Fixed-Aspect-Ratio Matrix Subsampling), a method that normalizes the weight matrices by subsampling submatrices with a fixed aspect ratio. Instead of measuring the heavytailness of the original ESD, we measure the average ESD of these subsampled submatrices. We show that measuring the heavytailness of these submatrices with the fixed aspect ratio can effectively mitigate the aspect ratio bias. We validate our approach across various optimization techniques and application domains that involve eigenspectrum analysis of weights, including image classification in computer vision (CV) models, scientific machine learning (SciML) model training, and large language model (LLM) pruning. Our results show that despite its simplicity, FARMS uniformly improves the accuracy of eigenspectrum analysis while enabling more effective layer-wise hyperparameter assignment in these application domains. In one of the LLM pruning experiments, FARMS reduces the perplexity of the LLaMA-7B model by 17.3% when compared with the state-of-the-art method.
- Abstract(参考訳): 近年、重量行列の固有スペクトルによるディープニューラルネットワーク(DNN)の診断が活発な研究領域となっている。
高レベルでは、DNNの固有スペクトル解析は、重量行列の実験的スペクトル密度(ESD)の重みを計測する。
モデルがどのようにトレーニングされているかについての洞察を提供し、レイヤーワイドなトレーニングハイパーパラメータの割り当てに関する決定を導くことができる。
本稿では,重み度推定値に対する重み行列のアスペクト比の影響について考察する。
種々のサイズ(およびアスペクト比)の行列が重み付け度を推定する際の非無視バイアスを導入し、不正確なモデル診断とレイヤーワイドハイパーパラメーターの割り当てをもたらすことを示した。
この課題を克服するために、固定アスペクト比でサブマトリックスをサブサンプリングすることで重量行列を正規化するFARMS(Fixed-Aspect-Ratio Matrix Subsampling)を提案する。
元のESDの重みを計測する代わりに、これらのサブサンプリングサブマトリクスの平均ESDを測定する。
これらのサブマトリクスの重み度を一定アスペクト比で測定することで、アスペクト比バイアスを効果的に軽減できることを示す。
我々は、コンピュータビジョン(CV)モデルにおける画像分類、科学機械学習(SciML)モデルトレーニング、大規模言語モデル(LLM)プルーニングなど、重みの固有スペクトル分析を含む様々な最適化手法や応用分野にわたるアプローチを検証する。
その結果、FARMSは単純さにもかかわらず、固有スペクトル解析の精度を均一に向上し、これらのアプリケーション領域においてより効果的な層ワイドハイパーパラメータ割り当てを可能にした。
LLMプルーニング実験の1つで、FARMSは最先端の手法と比較してLLaMA-7Bモデルの難易度を17.3%削減した。
関連論文リスト
- Machine Learning Framework for Characterizing Processing-Structure Relationship in Block Copolymer Thin Films [1.4698426549994696]
ブロック共重合体(BCP)の形態は、材料特性や応用に重大な影響を及ぼす。
本研究では,BCP薄膜形態を特徴付けるために,GISAXSデータとAFM画像の解析を行う機械学習(ML)対応フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-29T04:14:42Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - Measuring Variable Importance in Heterogeneous Treatment Effects with Confidence [33.12963161545068]
因果機械学習は、複雑なデータから個々の治療効果を推定する約束を持っている。
本稿では,条件付き置換法(CPI)に基づくアルゴリズムPermuCATEを提案する。
シミュレーションおよび実世界の健康データセットにおけるPermuCATEの利点を実証的に示す。
論文 参考訳(メタデータ) (2024-08-23T11:44:07Z) - Data-free Weight Compress and Denoise for Large Language Models [96.68582094536032]
パラメータ行列を圧縮する手法として,データフリーなジョイントランクk近似を提案する。
キャリブレーションデータなしで、元の性能の93.43%を維持しながら80%のパラメータのモデルプルーニングを実現する。
論文 参考訳(メタデータ) (2024-02-26T05:51:47Z) - Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。
MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。
理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文 参考訳(メタデータ) (2023-08-26T06:12:33Z) - Proximal Symmetric Non-negative Latent Factor Analysis: A Novel Approach
to Highly-Accurate Representation of Undirected Weighted Networks [2.1797442801107056]
Undirected Weighted Network (UWN) は、ビッグデータ関連のアプリケーションで一般的に見られる。
既存のモデルは本質対称性や低データ密度のモデル化に失敗する。
近軸対称非負の潜在因子分析モデルを提案する。
論文 参考訳(メタデータ) (2023-06-06T13:03:24Z) - Language model compression with weighted low-rank factorization [73.61874728240568]
本稿では,モデル予測に影響を及ぼすパラメータの重要性を評価するために,フィッシャー情報を紹介する。
結果のタスク精度は、元のモデルの性能にかなり近いことがわかった。
提案手法は,タスク固有のモデルを直接圧縮し,他のコンパクトモデル戦略よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-06-30T21:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。