論文の概要: Learning Adaptive LLM Decoding
- arxiv url: http://arxiv.org/abs/2603.09065v1
- Date: Tue, 10 Mar 2026 01:15:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.922911
- Title: Learning Adaptive LLM Decoding
- Title(参考訳): 適応型LLMデコーディングの学習
- Authors: Chloe H. Su, Zhe Ye, Samuel Tenka, Aidan Yang, Soonho Kong, Udaya Ghai,
- Abstract要約: 我々は、利用可能な計算資源に基づいて、推論時にサンプリング戦略を動的に選択する適応型復号法を学習する。
我々は、強化学習と検証可能な端末報酬で訓練された軽量デコードアダプタを導入する。
実験により、学習したアダプタは精度と予算のトレードオフを改善することが示された。
- 参考スコア(独自算出の注目度): 6.643962667713069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decoding from large language models (LLMs) typically relies on fixed sampling hyperparameters (e.g., temperature, top-p), despite substantial variation in task difficulty and uncertainty across prompts and individual decoding steps. We propose to learn adaptive decoding policies that dynamically select sampling strategies at inference time, conditioned on available compute resources. Rather than fine-tuning the language model itself, we introduce lightweight decoding adapters trained with reinforcement learning and verifiable terminal rewards (e.g. correctness on math and coding tasks). At the sequence level, we frame decoding as a contextual bandit problem: a policy selects a decoding strategy (e.g. greedy, top-k, min-p) for each prompt, conditioned on the prompt embedding and a parallel sampling budget. At the token level, we model decoding as a partially observable Markov decision process (POMDP), where a policy selects sampling actions at each token step based on internal model features and the remaining token budget. Experiments on the MATH and CodeContests benchmarks show that the learned adapters improve the accuracy-budget tradeoff: on MATH, the token-level adapter improves Pass@1 accuracy by up to 10.2% over the best static baseline under a fixed token budget, while the sequence-level adapter yields 2-3% gains under fixed parallel sampling. Ablation analyses support the contribution of both sequence- and token-level adaptation.
- Abstract(参考訳): 大規模言語モデル(LLM)からのデコードは通常、プロンプトや個別のデコードステップ間でタスクの難易度や不確実性が大きく変化しているにもかかわらず、固定サンプリングハイパーパラメータ(例えば温度、トップp)に依存している。
本稿では,利用可能な計算資源を前提とした推論時間におけるサンプリング戦略を動的に選択する適応型復号法について述べる。
言語モデル自体を微調整する代わりに、強化学習と検証可能な終末報酬(数学やコーディングタスクの正確性など)で訓練された軽量な復号アダプタを導入する。
各プロンプトに対するデコード戦略(例えばgreedy, top-k, min-p)を選択し、プロンプト埋め込みと並列サンプリング予算を条件とした。
トークンレベルでは、部分的に観測可能なマルコフ決定プロセス(POMDP)としてデコーディングをモデル化し、内部モデルの特徴と残りのトークン予算に基づいて、ポリシーが各トークンステップでサンプリングアクションを選択する。
MATHとCodeContestsベンチマークの実験では、学習したアダプタは精度と予算のトレードオフを改善することが示されている。MATHでは、トークンレベルのアダプタは固定されたトークンの予算の下で最高の静的ベースラインよりも最大10.2%の精度でPass@1の精度を改善する一方、シーケンスレベルのアダプタは固定された並列サンプリングの下で2-3%のゲインを得る。
アブレーション解析は、シーケンスレベルの適応とトークンレベルの適応の両方の寄与をサポートする。
関連論文リスト
- $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Learning to Parallel: Accelerating Diffusion Large Language Models via Learnable Parallel Decoding [21.609237262034636]
大規模言語モデル(LLM)における自己回帰復号には、$n$トークンに対して$mathcalO(n)$シーケンシャルステップが必要である。
本稿では,並列デコード学習(Learn2PD)を提案する。これは軽量かつ適応的なフィルタモデルをトレーニングし,各トークン位置に対して,現在の予測が最終出力と一致するかどうかを予測するフレームワークである。
この学習されたフィルタは、正しく予測された場合にのみトークンをアンマスクするオラクル並列復号法を近似する。
論文 参考訳(メタデータ) (2025-09-29T17:59:54Z) - Dynamic Context-oriented Decomposition for Task-aware Low-rank Adaptation with Less Forgetting and Faster Convergence [131.41894248194995]
タスク認識方式でアダプタを初期化する新しい手法であるコンテキスト指向分解適応(CorDA)を提案する。
本手法は,タスク認識により,知識保存モード (KPM) と命令レビューモード (IPM) の2つのオプション適応モードを実現する。
論文 参考訳(メタデータ) (2025-06-16T07:55:14Z) - CorDA: Context-Oriented Decomposition Adaptation of Large Language Models for Task-Aware Parameter-Efficient Fine-tuning [101.81127587760831]
現在の微調整手法は、学習すべき下流タスクのコンテキストや、維持すべき重要な知識のコンテキストに広く適用できるアダプタを構築している。
学習可能なタスク対応アダプタを構築するコンテキスト指向の分解適応手法であるCorDAを提案する。
本手法は,知識保存型適応と指導レビュー型適応の2つの選択肢を実現する。
論文 参考訳(メタデータ) (2024-06-07T19:10:35Z) - Token-Level Adaptation of LoRA Adapters for Downstream Task
Generalization [0.0]
本稿では,小規模言語モデルにおけるLoRAアダプタを任意のダウンストリームタスクに適応させる手法を提案する。
本手法では,トレーニングや推論の計算要求を増大させることなく,専門家の重み付けの組み合わせを選択するために,勾配のないルーティング関数を用いる。
論文 参考訳(メタデータ) (2023-11-17T20:07:54Z) - Meta-learning via Language Model In-context Tuning [16.306733033119897]
メタラーニングの目標は、いくつかのラベル付き例で新しいタスクに適応することを学ぶことだ。
適応と予測をリキャストする$textitin-context tuningを提案する。
LAMAとBinaryClfsの2種類のテキスト分類タスクについて,本手法のベンチマークを行った。
論文 参考訳(メタデータ) (2021-10-15T02:29:09Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。