論文の概要: Optimal Budgeted Adaptation of Large Language Models
- arxiv url: http://arxiv.org/abs/2602.00952v1
- Date: Sun, 01 Feb 2026 01:08:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.485598
- Title: Optimal Budgeted Adaptation of Large Language Models
- Title(参考訳): 大規模言語モデルの最適予算適応
- Authors: Jing Wang, Jie Shen, Dean Foster, Zohar Karnin, Jeremy C Weiss,
- Abstract要約: ラベル付きデータの可用性と下流の精度のトレードオフは、大きな言語モデルにおいて依然として中心的な課題である。
そこで本稿では,LLM をコンテキスト型 Stackelberg ゲームとしてキャストすることで,Emphbudget-aware による微調整を指導するフレームワークを提案する。
- 参考スコア(独自算出の注目度): 8.207283283207138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The trade-off between labeled data availability and downstream accuracy remains a central challenge in fine-tuning large language models (LLMs). We propose a principled framework for \emph{budget-aware supervised fine-tuning} by casting LLM adaptation as a contextual Stackelberg game. In our formulation, the learner (leader) commits to a scoring policy and a label-querying strategy, while an adaptive environment (follower) selects challenging supervised alternatives in response. To explicitly address label efficiency, we incorporate a finite supervision budget directly into the learning objective. Our algorithm operates in the full-feedback regime and achieves $\tilde{O}(d\sqrt{T})$ regret under standard linear contextual assumptions. We extend the framework with a Largest-Latency-First (LLF) confidence gate that selectively queries labels, achieving a budget-aware regret bound of $\tilde{O}(\sqrt{dB} + c\sqrt{B})$ with $B=βT$.
- Abstract(参考訳): ラベル付きデータの可用性と下流の精度のトレードオフは、大規模言語モデル(LLM)の微調整において依然として中心的な課題である。
We propose a principled framework for \emph{budget-aware supervised fine-tuning} by casting LLM adaptation as a contextual Stackelberg game。
我々の定式化では、学習者(リーダー)はスコアリングポリシーとラベルクエリ戦略にコミットし、適応環境(フォロワー)は応答において教師付き代替案を選択する。
ラベルの効率性を明確にするために、学習目的に直接有限の監督予算を組み込む。
我々のアルゴリズムはフルフィードバック方式で動作し、標準的な線形文脈仮定の下で $\tilde{O}(d\sqrt{T})$ regret を達成する。
フレームワークをLLF(Largest-Latency-First)信頼ゲートで拡張し、ラベルを選択的にクエリし、$\tilde{O}(\sqrt{dB} + c\sqrt{B})$を$B=βT$で許容する。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback [38.915062716409686]
InTROはトークンレベルの探索と,正確かつ簡潔な推論のための自己フィードバックを可能にする,新たなフレームワークである。
InTROは他のベースラインを一貫して上回り、ベースモデルと比較して解の精度を最大20%向上させる。
その思考の連鎖は明らかに簡潔であり、冗長性が低下している。
論文 参考訳(メタデータ) (2025-11-13T01:47:06Z) - Efficient Algorithms for Logistic Contextual Slate Bandits with Bandit Feedback [0.8287206589886881]
本稿では,ロジスティック・コンテクスト・スレート・バンド問題について考察する。
選択したスレートに対して、ロジスティックモデルにより決定された単一のバイナリ報酬が観測される。
本稿では,Slate-GLM-OFUとSlate-GLM-TSの2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T07:19:02Z) - Scalable Chain of Thoughts via Elastic Reasoning [61.75753924952059]
Elastic Reasoningは、スケーラブルな思考の連鎖のための新しいフレームワークである。
推論は、独立して割り当てられた予算で、思考と解決の2つのフェーズに分けられる。
我々のアプローチは、制約のない設定でもより簡潔で効率的な推論をもたらす。
論文 参考訳(メタデータ) (2025-05-08T15:01:06Z) - Not All Rollouts are Useful: Down-Sampling Rollouts in LLM Reinforcement Learning [55.15106182268834]
検証可能な報奨付き強化学習(RLVR)が,大規模言語モデルにおける推論能力向上のための主要なアプローチとして登場した。
ロールアウト生成は恥ずかしく並列であり、メモリライトであるのに対して、ポリシー更新は通信量が多く、メモリ集約的である。
PODS(Policy Optimization with Down-Sampling)を導入し、戦略的に選択されたロールアウトサブセットでのみトレーニングすることで、ポリシー更新からロールアウト生成を分離する。
論文 参考訳(メタデータ) (2025-04-18T17:49:55Z) - Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは 違法にコストがかかる
LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。
我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-04-07T18:30:18Z) - $\texttt{SEM-CTRL}$: Semantically Controlled Decoding [53.86639808659575]
$texttSEM-CTRL$は、LLMデコーダに直接、リッチなコンテキスト依存制約とタスクおよびインスタンス固有のセマンティクスを強制する統一的なアプローチである。
texttSEM-CTRL$は、小さな訓練済みのLLMがより大きな変種や最先端の推論モデルよりも効率的に性能を向上することを可能にする。
論文 参考訳(メタデータ) (2025-03-03T18:33:46Z) - Sparse Linear Bandits with Blocking Constraints [22.01704171400845]
データ・ポーア・システマにおける高次元スパース線形包帯問題について検討する。
線形モデルに対するラッソ推定器の新たなオフライン統計的保証を示す。
本稿では,最小限のコストで最適空間パラメータ$k$の知識を必要としない相関に基づくメタアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T01:42:03Z) - Selective Generation for Controllable Language Models [19.909671258499184]
生成言語モデル(GLM)の信頼性は、重要な意思決定システムへの展開において不可欠である。
テキストエンタテインメント関係(FDR-E)に関して、偽発見率を制御する2つの選択的生成アルゴリズムを提案する。
選択予測を直接修正した$textttSGentextttSup$は、人間によって注釈付けされたエンテーメントラベル付きデータを悪用する。
人間のアノテーションはコストがかかるので、unを完全に活用した半教師付きバージョンである$textttSGentexttSemi$を提案します。
論文 参考訳(メタデータ) (2023-07-18T13:36:24Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Stochastic Contextual Dueling Bandits under Linear Stochastic
Transitivity Models [25.336599480692122]
我々は,コンテキスト情報を用いた決闘バンディット問題における後悔の最小化タスクについて検討する。
本稿では,フィードバックプロセスの模倣に基づく計算効率のよいアルゴリズムである$texttCoLSTIM$を提案する。
本実験は,CoLSTモデルの特殊事例に対する最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-09T17:44:19Z) - Nearly Dimension-Independent Sparse Linear Bandit over Small Action
Spaces via Best Subset Selection [71.9765117768556]
本研究では,高次元線形モデルの下での文脈的帯域問題について考察する。
この設定は、パーソナライズされたレコメンデーション、オンライン広告、パーソナライズされた医療など、不可欠な応用を見出す。
本稿では,最適部分集合選択法を用いて2重成長エポックを推定する手法を提案する。
論文 参考訳(メタデータ) (2020-09-04T04:10:39Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。