論文の概要: Curvature-Weighted Capacity Allocation: A Minimum Description Length Framework for Layer-Adaptive Large Language Model Optimization
- arxiv url: http://arxiv.org/abs/2603.00910v1
- Date: Sun, 01 Mar 2026 04:14:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.40875
- Title: Curvature-Weighted Capacity Allocation: A Minimum Description Length Framework for Layer-Adaptive Large Language Model Optimization
- Title(参考訳): 曲率重み付きキャパシティアロケーション:層適応型大言語モデル最適化のための最小記述長フレームワーク
- Authors: Theophilus Amaefuna, Hitesh Vaidya, Anshuman Chhabra, Ankur Mali,
- Abstract要約: 大規模な言語モデルにおけるレイヤーのキャパシティは、一様ではなく、あるレイヤは損失削減に不均一に寄与し、他のレイヤは、ほぼ冗長である。
影響関数に基づくレイヤスコアリングのような、この非均一性を利用する既存の手法は、感度推定を生成するが、それらをアロケーションやプルーニング決定に変換するための原則化されたメカニズムは提供しない。
このギャップを,MDL(Minimum Description Length)の原理に基づく統一された曲率対応フレームワークで解決する。
- 参考スコア(独自算出の注目度): 8.029535985033485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Layer-wise capacity in large language models is highly non-uniform: some layers contribute disproportionately to loss reduction while others are near-redundant. Existing methods for exploiting this non-uniformity, such as influence-function-based layer scoring, produce sensitivity estimates but offer no principled mechanism for translating them into allocation or pruning decisions under hardware constraints. We address this gap with a unified, curvature-aware framework grounded in the Minimum Description Length (MDL) principle. Our central quantity is the curvature-adjusted layer gain $ζ_k^2 = g_k^\top \widetilde{H}_{kk}^{-1} g_k$, which we show equals twice the maximal second-order reduction in empirical risk achievable by updating layer $k$ alone, and which strictly dominates gradient-norm-based scores by incorporating local curvature. Normalizing these gains into layer quality scores $q_k$, we formulate two convex MDL programs: a capacity allocation program that distributes expert slots or LoRA rank preferentially to high-curvature layers under diminishing returns, and a pruning program that concentrates sparsity on low-gain layers while protecting high-gain layers from degradation. Both programs admit unique closed-form solutions parameterized by a single dual variable, computable in $O(K \log 1/\varepsilon)$ via bisection. We prove an $O(δ^2)$ transfer regret bound showing that source-domain allocations remain near-optimal on target tasks when curvature scores drift by $δ$, with explicit constants tied to the condition number of the target program. Together, these results elevate layer-wise capacity optimization from an empirical heuristic to a theoretically grounded, computationally efficient framework with provable optimality and generalization guarantees.
- Abstract(参考訳): 大きな言語モデルにおけるレイヤーのキャパシティは、非常に一様ではない。
影響関数に基づくレイヤスコアリングのような、この非均一性を利用する既存の手法は、感度推定を生成するが、ハードウェア制約の下でそれらをアロケーションやプルーニング決定に変換するための原則的なメカニズムは提供しない。
このギャップを,MDL(Minimum Description Length)の原理に基づく統一された曲率対応フレームワークで解決する。
我々の中心となる量として, 曲率調整した層は, g_k^2 = g_k^\top \widetilde{H}_{kk}^{-1} g_k$である。
これらの値が層品質スコア$q_k$に正規化されることで、専門家スロットやLoRAランクを低下するリターン下の高曲率層に優先的に分配するキャパシティ割り当てプログラムと、高利得層を劣化から保護しながら低利得層に間隔を集中するプルーニングプログラムの2つの凸MDLプログラムを定式化する。
どちらのプログラムも、1つの双対変数によってパラメータ化され、$O(K \log 1/\varepsilon)$で計算できるユニークな閉形式解を認めている。
我々は、ターゲットプログラムの条件数に比例した明示定数で、曲率スコアが$δ$でドリフトした場合、ソース領域の割り当てがターゲットタスクに対してほぼ最適であることを示す、$O(δ^2)$転送後悔境界を証明した。
これらの結果は、経験的ヒューリスティックから、証明可能な最適性と一般化保証を備えた理論的に基礎付けられた、計算的に効率的なフレームワークまで、階層的にキャパシティを最適化する。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Understanding and Guiding Layer Placement in Parameter-Efficient Fine-Tuning of Large Language Models [19.448467763421707]
大規模言語モデル(LLM)は成長を続けており、パラメータ効率の良い微調整が下流適応のデフォルト戦略となっている。
現在のプラクティスは一般的に、すべてのレイヤに対してPEFTを統一的に適用し、レイヤの選択を限定的に理解または活用する。
本稿では,凍結ベースモデル上でPEFTの統一的残差ビューを開発する。
論文 参考訳(メタデータ) (2026-02-03T21:05:55Z) - FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching [4.01326804806241]
Rank1-Sketch-based Flexible Rank Selection (R1-FLR) と Best Low-rank Approximation under Clipping (BLC) を導入する。
R1-FLRは高速な低ランク近似のためにガウス射影を持つR1-Sketchを適用し、各層に対して外向きのランク抽出を可能にする。
BLCは、スケーリングとクリッピング戦略の下での低ランク量子化誤差の最小化を目的としている。
論文 参考訳(メタデータ) (2026-01-09T10:06:45Z) - The Structural Scalpel: Automated Contiguous Layer Pruning for Large Language Models [33.90597962418094]
大規模言語モデルのための新しい連続層プルーニングフレームワークであるCLPを提案する。
CLPは、プルーニングに最適な連続層セグメントを自動的に識別する、微分可能な凹面ゲートアルゴリズムを使用している。
CLPは量子化とシームレスに結合して、わずかな性能損失だけでモデルをさらに圧縮することができる。
論文 参考訳(メタデータ) (2025-10-25T16:40:17Z) - Differentiable Sparsity via $D$-Gating: Simple and Versatile Structured Penalization [22.883367233817836]
D$-Gatingは、理論上、元の群疎性問題の解法と等価であることを示す。
ビジョン、言語、タスクにまたがって私たちの理論を検証する。
論文 参考訳(メタデータ) (2025-09-28T14:08:29Z) - Determining Layer-wise Sparsity for Large Language Models Through a Theoretical Perspective [55.90119819642064]
本稿では,大規模言語モデル (LLM) の階層的疎度率を理論的観点から決定する上での課題に対処する。
これは、スペーサー化プロセス全体での再構成エラーの累積効果を指す。
この問題を緩和するレイヤワイド・スパシティ・アロケーションに対する、シンプルで効果的なアプローチを導出します。
論文 参考訳(メタデータ) (2025-02-20T17:51:10Z) - Pushing the Limits of Large Language Model Quantization via the Linearity Theorem [71.3332971315821]
本稿では,階層的$ell$再構成誤差と量子化によるモデルパープレキシティ増加との直接的な関係を確立する「線形定理」を提案する。
この知見は,(1)アダマール回転とHIGGSと呼ばれるMSE最適格子を用いた単純なデータフリーLCM量子化法,(2)非一様層ごとの量子化レベルを求める問題に対する最適解の2つの新しい応用を可能にする。
論文 参考訳(メタデータ) (2024-11-26T15:35:44Z) - Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach [57.92727189589498]
本稿では,2段階の適応性を持つオンライン凸最適化手法を提案する。
我々は$mathcalO(log V_T)$, $mathcalO(d log V_T)$, $hatmathcalO(sqrtV_T)$ regret bounds for strong convex, exp-concave and convex loss function。
論文 参考訳(メタデータ) (2023-07-17T09:55:35Z) - Recursive greedy initialization of the quantum approximate optimization
algorithm with guaranteed improvement [1.720510639137902]
量子近似最適化アルゴリズム (QAOA) は変分量子アルゴリズムであり、量子コンピュータは変分ユニタリ演算子の$p$層からなる変分アンサッツを実装している。
本稿では,QAOAを$p+1$で局所最小のQAOAを$p$で使用するQAOAの遷移状態の解析的構成について述べる。
論文 参考訳(メタデータ) (2022-09-02T16:40:21Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。