論文の概要: Importance-Guided Basis Selection for Low-Rank Decomposition of Large Language Models
- arxiv url: http://arxiv.org/abs/2605.01627v1
- Date: Sat, 02 May 2026 22:35:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.856516
- Title: Importance-Guided Basis Selection for Low-Rank Decomposition of Large Language Models
- Title(参考訳): 大規模言語モデルの低ランク分解のための重要誘導バス選択
- Authors: Daniel Agyei Asante, Ernie Chang, Yang Li,
- Abstract要約: 本稿では,BSI(Basis Selection with Importance)について紹介する。
我々は,Hutchinsonランダム化探索法を適用し,対称なパラメータ摂動による曲率の減少に適応して,効率的なヘシアン対角推定器を開発した。
本稿では, ベースプルーニングによる損失増加境界, ヘッセン対角線推定誤差のこれらの境界への明示的伝播, ヘッセンスペクトルに関連付けられた分散特性, 目標推定精度を達成するための高確率サンプル-複雑度保証, 摂動強度のガイダンスなど, 包括的な理論的解析を行う。
- 参考スコア(独自算出の注目度): 9.690793619550654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Low-rank decomposition is a compelling approach for compressing large language models, but its effectiveness hinges on selecting which singular-vector bases to retain for a target task. Existing methods such as Basel adapt singular-value coefficients on downstream data and prune bases with small re-learned magnitudes, a heuristic that can be misaligned with task performance because it ignores the local geometry of the loss landscape. We present Basis Selection with Importance (BSI), a principled low-rank compression framework that ranks and prunes bases by directly estimating the expected loss increase incurred when each basis is removed. BSI derives a derivative-based importance score from a second-order Taylor expansion of the task loss with respect to singular values, combining first-order sensitivity and second-order curvature to quantify pruning impact. To make this criterion practical for LLMs, we develop an efficient Hessian-diagonal estimator by adapting the Hutchinson randomized-probing method to loss curvature with symmetric parameter perturbations. We provide a comprehensive theoretical analysis, including loss-increase bounds under basis pruning, explicit propagation of Hessian-diagonal estimation error into these bounds, variance characterization tied to the Hessian spectrum, high-probability sample-complexity guarantees for achieving a target estimation accuracy, and guidance on perturbation intensity. Extensive experiments on mathematical reasoning benchmarks demonstrate that BSI consistently outperforms state-of-the-art low-rank decomposition baselines, with especially strong improvements under deep compression.
- Abstract(参考訳): 低ランクの分解は、大きな言語モデルを圧縮するための魅力的なアプローチであるが、その有効性は、どの特異ベクトルベースを目標タスクに保持するかを選択することにある。
Baselのような既存の手法は、下流データやプーンベースに小さな再学習の規模で特異値係数を適応させるが、これは、損失ランドスケープの局所的な幾何学を無視するため、タスクパフォーマンスとミスマッチするヒューリスティックである。
本稿では,BSI(Basis Selection with Importance)を提案する。BSIは,各ベースが削除された場合の期待損失増加を直接見積もることで,ベースをランク付けしてプーンする,原則的な低ランク圧縮フレームワークである。
BSIは、一階の感度と二階の曲率を組み合わせてプルーニングの影響を定量化することで、タスク損失の特異値に対する2階のテイラー展開から導出される微分ベースの重要度スコアを導出する。
この基準を LLM に実用的なものにするために,Hutchinson randomized-probing 法を適用し,対称パラメータ摂動による曲率の減少に適応させることにより,効率的なヘッセン対角推定器を開発した。
本稿では, ベースプルーニングによる損失増加境界, ヘッセン対角線推定誤差のこれらの境界への明示的伝播, ヘッセンスペクトルに関連付けられた分散特性, 目標推定精度を達成するための高確率サンプル-複雑度保証, 摂動強度のガイダンスなど, 包括的な理論的解析を行う。
数学的推論ベンチマークに関する大規模な実験により、BSIは最先端の低ランク分解ベースラインより一貫して優れており、特に深い圧縮下では強い改善が見られた。
関連論文リスト
- Asymptotic Theory for Graphical SLOPE: Precision Estimation and Pattern Convergence [2.5407895016635127]
本稿では,精度行列推定のためのグラフィカルSLOPEについて検討する。
固定次元状態において、ルート=$n$スケール推定誤差は厳密な凸最適化問題の一意の最小化に収束する。
また、誘導SLOPEパターンの収束性を確立し、推定器によって選択されたクラスタリング構造の特徴づけを得る。
論文 参考訳(メタデータ) (2026-04-14T14:10:56Z) - Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。
我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。
重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文 参考訳(メタデータ) (2026-02-24T05:32:03Z) - Variationally correct operator learning: Reduced basis neural operator with a posteriori error estimation [3.8135482236014133]
PDE-残留損失の最小化は、ニューラル演算子の物理的一貫性を促進するための一般的な戦略である。
本研究は,FOSLS(Fon-order system least-squares)の目的を定式化することによって,変分正しい演算子学習フレームワークを開発する。
本稿では,有限要素の離散化バイアス,ベーストランケーション誤差の低減,ニューラルネットワーク近似誤差,統計的推定誤差の和で総誤差を束縛する厳密な収束解析を提案する。
論文 参考訳(メタデータ) (2025-12-24T18:37:59Z) - Revisiting Zeroth-Order Optimization: Minimum-Variance Two-Point Estimators and Directionally Aligned Perturbations [57.179679246370114]
乱摂動の分布は, 摂動段差がゼロになる傾向にあるため, 推定子の分散を最小限に抑える。
以上の結果から, 一定の長さを維持するのではなく, 真の勾配に方向を合わせることが可能であることが示唆された。
論文 参考訳(メタデータ) (2025-10-22T19:06:39Z) - On the Optimal Construction of Unbiased Gradient Estimators for Zeroth-Order Optimization [57.179679246370114]
既存の手法の潜在的な制限は、ステップサイズが提案されない限り、ほとんどの摂動推定器に固有のバイアスである。
本稿では, 良好な構成を維持しつつ, バイアスを排除した非バイアス勾配スケーリング推定器のファミリーを提案する。
論文 参考訳(メタデータ) (2025-10-22T18:25:43Z) - From Noisy Traces to Stable Gradients: Bias-Variance Optimized Preference Optimization for Aligning Large Reasoning Models [90.45197506653341]
大規模推論モデルは最終回答を生成する前に中間的推論トレースを生成する。
LRMと人間の好みの整合性は、モデルデプロイメントにとって重要な前提条件であり、まだ過小評価されていない。
共通の回避策は1つのサンプル軌道を最適化し、トレースサンプリングからかなり勾配のばらつきをもたらす。
論文 参考訳(メタデータ) (2025-10-06T17:58:01Z) - Wasserstein Distributionally Robust Nonparametric Regression [9.65010022854885]
本稿では、ワッサーシュタイン分布性非パラメトリック推定器の一般化特性について検討する。
我々は,過度の局地的最悪のリスクに対して,非漸近的エラー境界を確立する。
提案した推定器のロバスト性はシミュレーション研究を通じて評価し,MNISTデータセットへの適用例を示した。
論文 参考訳(メタデータ) (2025-05-12T18:07:37Z) - Last-Iterate Convergence of Adaptive Riemannian Gradient Descent for Equilibrium Computation [52.73824786627612]
本稿では,テクスト幾何学的強単調ゲームに対する新たな収束結果を確立する。
我々のキーとなる結果は、RGDがテクスト幾何学的手法で最終定位線形収束を実現することを示しています。
全体として、ユークリッド設定を超えるゲームに対して、幾何学的に非依存な最終点収束解析を初めて提示する。
論文 参考訳(メタデータ) (2023-06-29T01:20:44Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Sparse Representations of Positive Functions via First and Second-Order
Pseudo-Mirror Descent [15.340540198612823]
推定器の範囲が非負である必要がある場合、予測されるリスク問題を考察する。
Emphpseudo-gradientsを用いた近似ミラーの1階および2階の変種を開発した。
実験は、実際に不均一なプロセス強度推定に好適な性能を示す。
論文 参考訳(メタデータ) (2020-11-13T21:54:28Z) - On Low-rank Trace Regression under General Sampling Distribution [9.699586426043885]
クロスバリデード推定器は一般仮定でほぼ最適誤差境界を満たすことを示す。
また, クロスバリデーション推定器はパラメータ選択理論に着想を得た手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2019-04-18T02:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。