論文の概要: Compute Where it Counts: Self Optimizing Language Models
- arxiv url: http://arxiv.org/abs/2605.10875v1
- Date: Mon, 11 May 2026 17:27:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.029584
- Title: Compute Where it Counts: Self Optimizing Language Models
- Title(参考訳): Compute where it counts: Self Optimizing Language Models
- Authors: Yash Akhauri, Mohamed S. Abdelfattah,
- Abstract要約: 自己回帰復号化のための動的予算配分について検討する。
我々は,教師の指導するエピソードに対して,グループ相対的な政策最適化を用いて政策を訓練する。
私たちの報酬は、言語モデルの品質と、エピソード平均の予算使用を促進するソフトなペナルティとのトレードオフです。
- 参考スコア(独自算出の注目度): 10.058821474955177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient LLM inference research has largely focused on reducing the cost of each decoding step (e.g., using quantization, pruning, or sparse attention), typically applying a uniform computation budget to every generated token. In practice, token difficulty varies widely, so static compression can over-compute on easy steps and under-compute on hard ones. We study dynamic budget allocation for autoregressive decoding: learning how much computation to spend per token from within a single model. Self-Optimizing Language Models (SOL) pair a frozen LLM with a lightweight policy network that reads the LLM hidden state and selects a discrete efficiency action at each decode step. Actions can jointly control (i) token-level attention sparsity, (ii) structured activation pruning in the MLP, and (iii) activation quantization bit-width, while leaving the base model weights unchanged. We train the policy with group-relative policy optimization on teacher-forced episodes: the token sequence is fixed, while we sample multiple compute schedules (i.e., "counterfactual" schedules that vary only the efficiency actions for the same token path) and compare their likelihoods under the same supervision. Our reward trades off language-model quality against soft penalties that encourage episode-average budget usage to match a requested target. Across model variants and compute regimes, SOL improves quality at matched budget over static allocation and strong random schedule search, offering a complementary axis for inference-efficiency optimization. SOL discovers a better quality-efficiency pareto-front across all our experiments and improves MMLU accuracy by up to 7.3% over uniform budget allocation strategies.
- Abstract(参考訳): 効率的なLLM推論研究は、デコーディングの各ステップ(例えば、量子化、プルーニング、スパークアテンション)のコスト削減に重点を置いており、典型的には、生成されたトークンごとに均一な計算予算を適用する。
実際、トークンの難易度は様々であり、静的圧縮は簡単なステップで過剰に計算し、ハードなステップで過度に計算することができる。
自動回帰復号化のための動的予算配分について検討し、単一のモデルからトークン1枚あたりの計算量を学習する。
自己最適化言語モデル(SOL)は、LLM隠れ状態を読み出し、各デコードステップで離散効率動作を選択する軽量ポリシーネットワークと凍結LDMをペアリングする。
行動は共同で制御できる
(i)トークンレベルの注意空間
(II)MLPにおける構造的活性化プルーニング、及び
三 アクティベーション量子化ビット幅、ベースモデルの重みは変わらない。
トークンシーケンスは固定されているが、複数の計算スケジュール(例えば、同じトークンパスの効率動作だけが異なる「数値」スケジュール)をサンプリングし、同じ監督下でそれらの可能性を比較する。
我々の報酬は言語モデルの品質を、要求された目標に合うように平均的な予算使用を促すソフトペナルティと引き換えにしています。
モデル変種と計算システム全体で、SOLは静的アロケーションと強いランダムスケジュール探索よりも、一致した予算における品質を改善し、推論効率最適化のための補完軸を提供する。
SOLは、全ての実験において、より良い品質効率を前もって発見し、均一な予算配分戦略よりも、MMLUの精度を最大7.3%向上させる。
関連論文リスト
- Cost-Aware Learning [72.31444819326795]
本稿では,異なるコンポーネント関数をサンプリングするコスト認識学習の問題点について考察する。
凸関数に対するコスト・アウェア・Descentアルゴリズムを提案し、そのコスト複雑性を導出し誤差を$$$とする。
本稿では,性能を保ちつつポリシー最適化のコストを削減するアルゴリズムであるCost-Aware GRPOを紹介する。
論文 参考訳(メタデータ) (2026-04-30T15:39:09Z) - Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - Learning Adaptive LLM Decoding [6.643962667713069]
我々は、利用可能な計算資源に基づいて、推論時にサンプリング戦略を動的に選択する適応型復号法を学習する。
我々は、強化学習と検証可能な端末報酬で訓練された軽量デコードアダプタを導入する。
実験により、学習したアダプタは精度と予算のトレードオフを改善することが示された。
論文 参考訳(メタデータ) (2026-03-10T01:15:26Z) - $\nabla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Sparsity Forcing: Reinforcing Token Sparsity of MLLMs [40.93786579652003]
マルチモーダル大規模言語モデル(MLLM)におけるトークンの分散性を,単純なRLベースのポストトレーニングフレームワークであるtextitSparsity Forcing を用いて明示的に強化する。
本手法では,複数ロールアウトを異なるトークン予算で実行し,効率(トーケン還元率)と性能(回答正当性)の両方を共同報酬として定式化することにより,効率・正確性トレードオフを探索する。
論文 参考訳(メタデータ) (2025-04-23T01:45:55Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - Progressive Mixed-Precision Decoding for Efficient LLM Inference [49.05448842542558]
我々は,デコーディングのメモリバウンドネスに対処するために,プログレッシブ・ミックス・プレシジョン・デコーディング(PMPD)を導入する。
PMPDはfp16モデルの行列ベクトル乗算において1.4$-$12.2$times$ Speedupを達成する。
我々の手法は、fp16モデルよりも3.8$-$8.0$times$、均一量子化アプローチよりも1.54$times$のスループット向上をもたらす。
論文 参考訳(メタデータ) (2024-10-17T11:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。