論文の概要: Deadline-Aware Online Scheduling for LLM Fine-Tuning with Spot Market Predictions
- arxiv url: http://arxiv.org/abs/2512.20967v1
- Date: Wed, 24 Dec 2025 05:47:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.692527
- Title: Deadline-Aware Online Scheduling for LLM Fine-Tuning with Spot Market Predictions
- Title(参考訳): スポット市場予測を用いたLCMファインチューニングのためのデッドライン対応オンラインスケジューリング
- Authors: Linggao Kong, Yuedong Xu, Lei Jiao, Chuan Xu,
- Abstract要約: コスト効率のよいスケジューリングを可能にするための予測のパワーと、推定誤差に対する感度を示す。
本稿では,コミット型水平方向制御手法に基づくオンラインアロケーションアルゴリズムを提案する。
両アルゴリズムのパラメータを変動させて構築したプールから最良のポリシーを学習するオンラインポリシー選択アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 11.849924812127371
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As foundation models grow in size, fine-tuning them becomes increasingly expensive. While GPU spot instances offer a low-cost alternative to on-demand resources, their volatile prices and availability make deadline-aware scheduling particularly challenging. We tackle this difficulty by using a mix of spot and on-demand instances. Distinctively, we show the predictability of prices and availability in a spot instance market, the power of prediction in enabling cost-efficient scheduling and its sensitivity to estimation errors. An integer programming problem is formulated to capture the use of mixed instances under both the price and availability dynamics. We propose an online allocation algorithm with prediction based on the committed horizon control approach that leverages a \emph{commitment level} to enforce the partial sequence of decisions. When this prediction becomes inaccurate, we further present a complementary online algorithm without predictions. An online policy selection algorithm is developed that learns the best policy from a pool constructed by varying the parameters of both algorithms. We prove that the prediction-based algorithm achieves tighter performance bounds as prediction error decreases, while the policy selection algorithm possesses a regret bound of $\mathcal{O}(\sqrt{T})$. Experimental results demonstrate that our online framework can adaptively select the best policy under varying spot market dynamics and prediction quality, consistently outperforming baselines and improving utility by up to 54.8\%.
- Abstract(参考訳): 基礎モデルのサイズが大きくなるにつれて、微調整はますます高価になる。
GPUスポットインスタンスはオンデマンドリソースに代わる低コストの代替手段を提供するが、その揮発性価格と可用性は、特に期限対応のスケジューリングを困難にしている。
スポットインスタンスとオンデマンドインスタンスを混在させることで、この難しさに対処します。
本稿では,スポットインスタンス市場における価格と可用性の予測可能性,コスト効率の高いスケジューリングを実現するための予測力,推定誤差に対する感度を示す。
整数プログラミング問題は、価格と可用性の両方のダイナミクスの下で混合インスタンスの使用をキャプチャするために定式化される。
本稿では,決定の部分的な順序を強制するために \emph{commitment level} を利用する,コミット型水平方向制御に基づくオンラインアロケーションアルゴリズムを提案する。
この予測が不正確になった場合、予測のない補完的なオンラインアルゴリズムをさらに提示する。
両アルゴリズムのパラメータを変動させて構築したプールから最良のポリシーを学習するオンラインポリシー選択アルゴリズムを開発した。
予測に基づくアルゴリズムは、予測誤差が減少するにつれて、より厳密な性能境界を達成でき、一方ポリシー選択アルゴリズムは、残差が$\mathcal{O}(\sqrt{T})$であることを示す。
実験結果から,我々のオンラインフレームワークは,スポットマーケットの動態や予測品質の変動による最適政策を適応的に選択し,ベースラインを一貫して上回り,有効性を最大54.8 %向上させることができることがわかった。
関連論文リスト
- Monitoring State Transitions in Markovian Systems with Sampling Cost [65.4151496405543]
自然なアプローチは、予想される予測損失がクエリコスト以下で、クエリがなければいつ発生するかを予測する、欲張りのポリシーである。
最適(OPT)戦略は状態依存のしきい値ポリシである。
遷移確率が未知の場合、我々は、グレディポリシーの予測勾配降下(PSGD)に基づく学習変種を提案する。
論文 参考訳(メタデータ) (2025-10-25T15:07:37Z) - AdaSwitch: An Adaptive Switching Meta-Algorithm for Learning-Augmented Bounded-Influence Problems [9.387255955861162]
シーケンスベース予測を用いた複数周期オンライン意思決定問題のクラスについて検討する。
各期間において、意思決定者は、実現された要求を観察し、報酬を得る、またはコストを請求する不可解な措置を取らなければならない。
我々は、過去の決定と要求が将来の最適報酬に限定的な影響を与えるような、バウンド・インフルエンス・フレームワークを導入する。
本稿では,AdaSwitchメタアルゴリズムを提案する。これは,予測が正確である場合に,オフラインベンチマークに近い性能を達成するために,予測を利用する。
論文 参考訳(メタデータ) (2025-09-02T13:26:23Z) - No-Regret Learning Under Adversarial Resource Constraints: A Spending Plan Is All You Need! [56.80767500991973]
アクション選択の前に報酬とコストが観測される$(i)$オンラインリソース割当と、アクション選択後、完全なフィードバックや盗賊フィードバックの下で、リソース制限付きオンライン学習である$(ii)$オンラインリソース割当に焦点を当てた。
報酬とコスト分布が時間とともに任意に変化する場合、これらの設定でサブ線形後悔を達成することは不可能であることが知られている。
我々は、支出計画に従う基準線に対する半線形後悔を実現する一般的な(基本的)二重的手法を設計し、また、支出計画が予算のバランスの取れた配分を保証すると、アルゴリズムの性能が向上する。
論文 参考訳(メタデータ) (2025-06-16T08:42:31Z) - Non-clairvoyant Scheduling with Partial Predictions [17.387787159892287]
本稿では, 頑健性, 一貫性, 滑らかさの基準を満たす学習補助アルゴリズムを提案する。
また,予測数を制限するシナリオに固有の一貫性と滑らかさの新たなトレードオフも提示する。
論文 参考訳(メタデータ) (2024-05-02T05:29:22Z) - Best of Many in Both Worlds: Online Resource Allocation with Predictions under Unknown Arrival Model [16.466711636334587]
オンライン意思決定者は、到着や要求など、将来の変数に関する予測を得ることが多い。
意思決定者にとって予測精度は未知であるため、予測に盲目的に追従することは有害である。
我々は未知の予測精度に頑健な方法で予測を利用するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-21T04:57:32Z) - Autoregressive Bandits [58.46584210388307]
本稿では,オンライン学習環境であるAutoregressive Banditsを提案する。
報酬プロセスの軽微な仮定の下では、最適ポリシーを便利に計算できることが示される。
次に、新しい楽観的後悔最小化アルゴリズム、すなわちAutoRegressive Upper Confidence Bound (AR-UCB)を考案し、$widetildemathcalO left( frac(k+1)3/2sqrtnT (1-G)のサブ線形後悔を被る。
論文 参考訳(メタデータ) (2022-12-12T21:37:36Z) - Leveraging Predictions in Smoothed Online Convex Optimization via
Gradient-based Algorithms [18.64335888217192]
オンライン凸最適化は、時間的変化のあるステージコストと追加のスイッチングコストで検討する。
スイッチングコストはすべてのステージにカップリングをもたらすため、長期的な予測は品質の低下に悩まされる傾向がある。
本稿では,勾配に基づくオンラインアルゴリズムReceding Horizon Inexact Gradient (RHIG)を導入し,その性能を動的後悔によって解析する。
論文 参考訳(メタデータ) (2020-11-25T06:25:51Z) - Optimal Robustness-Consistency Trade-offs for Learning-Augmented Online
Algorithms [85.97516436641533]
機械学習予測を取り入れたオンラインアルゴリズムの性能向上の課題について検討する。
目標は、一貫性と堅牢性の両方を備えたアルゴリズムを設計することだ。
機械学習予測を用いた競合解析のための非自明な下界の最初のセットを提供する。
論文 参考訳(メタデータ) (2020-10-22T04:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。