論文の概要: Budgeted LoRA: Distillation as Structured Compute Allocation for Efficient Inference
- arxiv url: http://arxiv.org/abs/2605.04341v1
- Date: Tue, 05 May 2026 22:59:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.569282
- Title: Budgeted LoRA: Distillation as Structured Compute Allocation for Efficient Inference
- Title(参考訳): Budgeted LoRA:効率的な推論のための構造化計算機配置としての蒸留
- Authors: Mohammed Sabry, Anya Belz,
- Abstract要約: Budgeted LoRAは、モデル圧縮を構造化された計算割り当て問題として扱うフレームワークである。
Budgeted LoRA は標準の LoRA パープレキシティを1.74倍の圧縮加群高速化で適度な予算で一致していることを示す。
適度なパープレキシティ劣化を伴う4.05倍の高速化を実現し、関数型インコンテキスト学習プローブの精度を向上する。
- 参考スコア(独自算出の注目度): 6.886536285117155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study distillation for large language models under explicit compute constraints, with the goal of producing student models that are not only cheaper to train, but structurally efficient at inference time. While prior approaches to parameter-efficient distillation, such as LoRA, reduce adaptation cost, they leave the dense backbone unchanged and therefore fail to deliver meaningful inference savings. We propose Budgeted LoRA, a distillation framework that treats model compression as a structured compute allocation problem. Instead of using a fixed student architecture, we introduce a global compute budget that sets the final target fraction of dense computation retained. Under this constraint, the model redistributes capacity across dense and low-rank pathways via (i) module-level dense retention coefficients, (ii) adaptive low-rank allocation, and (iii) post-training compression that selectively removes, approximates, or preserves dense components. This formulation yields a family of students controlled by a single budget dial. Empirically, Budgeted LoRA matches standard LoRA perplexity at a moderate budget with a 1.74x compressed-module speedup; at an aggressive budget it achieves a 4.05x speedup with moderate perplexity degradation, and it preserves higher accuracy on function-style in-context learning probes. These results suggest that, under compute-constrained distillation, retaining behavior is less about matching perplexity or removing more parameters than it is about controlling how dense computation is transferred to low-rank pathways.
- Abstract(参考訳): 本研究の目的は, 学習費が安いだけでなく, 推論時に構造的に効率的である大規模言語モデルの蒸留を, 明示的な計算制約下で研究することである。
LoRAのようなパラメータ効率の高い蒸留への以前のアプローチは適応コストを下げるが、密度の高いバックボーンはそのまま残すため、意味のある推論の節約は得られない。
本稿では,モデル圧縮を構造化計算割当問題として扱う蒸留フレームワークであるBudgeted LoRAを提案する。
固定された学生アーキテクチャを使う代わりに、大域的な計算予算を導入する。
この制約の下で、モデルは高密度および低ランクの経路にまたがる容量を再分配する
(i)モジュールレベルの密度保持係数
(二)適応型低ランク割当、及び
三 濃厚成分を選択的に除去し、近似し、保存する後処理圧縮。
この定式化は、1つの予算ダイヤルによって管理される学生の家族を産み出す。
実証的には、Budgeted LoRAは標準のLoRAパープレクティリティを1.74倍圧縮モジュールのスピードアップと適度な予算で一致させるが、アグレッシブな予算では、適度なパープレクティリティ劣化を伴う4.05倍のスピードアップを実現し、関数スタイルのインコンテキスト学習プローブの精度を維持する。
これらの結果から, 蒸留条件下での保持挙動は, 低ランク経路への密度計算の伝達の制御よりも, パープレキシティの整合性やパラメータの除去が重視されることが示唆された。
関連論文リスト
- Budget Constraints as Riemannian Manifolds [39.54576236079211]
機械学習における繰り返し発生する問題は、全コスト予算の下で各NグループにKオプションの1つを割り当てることである。
本稿では, 予算の厳格な実施の下で, 真の目的の1次最適化を可能にする新しい制約を提案する。
既知のオプティマによる合成クナプサック問題では、多様体ベースの制約処理が最適解を回復するのに対し、ペナルティ法は最適の83%である。
論文 参考訳(メタデータ) (2026-05-01T13:30:23Z) - Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - BARD: budget-aware reasoning distillation [25.725960386304646]
ロング・チェーン・オブ・ソート (Long Chain-of-Thought, CoT) 蒸留は推論能力をより小さな言語モデルに効果的に伝達する。
bftextBudget-Aware Reasoning Distillation (BARD) を提案する。
論文 参考訳(メタデータ) (2025-11-03T11:30:18Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - An Adaptive Tensor-Train Decomposition Approach for Efficient Deep Neural Network Compression [4.869958813908807]
本稿では,効率的なモデル圧縮のための新しい,自動,予算を考慮したランク選択手法を提案する。
レイヤワイズインプリンティング量子化(LWIQ)は、プロキシ分類器を統合することで、ニューラルネットワーク内の各レイヤの意義を定量化する。
CIFAR-10データセットの実験結果から,LWIQのランク検索効率は63.2%向上した。
論文 参考訳(メタデータ) (2024-08-02T18:47:11Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Efficient Micro-Structured Weight Unification and Pruning for Neural
Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。
既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。
ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文 参考訳(メタデータ) (2021-06-15T17:22:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。