論文の概要: Automatic Configuration of LLM Post-Training Pipelines
- arxiv url: http://arxiv.org/abs/2603.18773v1
- Date: Thu, 19 Mar 2026 11:26:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.112769
- Title: Automatic Configuration of LLM Post-Training Pipelines
- Title(参考訳): LLM後処理パイプラインの自動構成
- Authors: Channe Chwa, Xinle Wu, Yao Lu,
- Abstract要約: AutoPipeは、LCMポストトレーニングの構成選択のための予算対応フレームワークである。
オフラインでAutoPipeは、データセットで条件付けられた学習からランクまでのサロゲートを、過去の実行から学習する。
オンラインでは、AutoPipeはオフラインガイダンスを使用してベイジアン最適化とデータセット固有の偏差をモデル化する。
- 参考スコア(独自算出の注目度): 4.833783769369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM post-training pipelines that combine supervised fine-tuning and reinforcement learning are difficult to configure under realistic compute budgets: the configuration space is high-dimensional and heterogeneous, stages are strongly coupled, and each end-to-end evaluation is expensive. We propose AutoPipe, a budget-aware two-stage framework for configuration selection in LLM post-training. Offline, AutoPipe learns a dataset-conditioned learning-to-rank surrogate from historical runs, capturing within-dataset preferences and providing transferable guidance toward promising regions of the configuration space. Online, for a new dataset, AutoPipe uses the offline guidance to steer Bayesian optimization and models dataset-specific deviations with a Gaussian-process residual surrogate. To reduce evaluation cost, each trial is early-stopped and scored by a learned predictor that maps early training signals to a low-cost proxy for final post-training performance. Experiments on biomedical reasoning tasks show that AutoPipe consistently outperforms offline-only baselines and achieves comparable performance with the strongest online HPO baselines while using less than 10\% of their computational cost.
- Abstract(参考訳): 教師付き微調整と強化学習を組み合わせたLLMポストトレーニングパイプラインは, 構成空間が高次元かつ均一であり, ステージが強く結合され, エンドツーエンド評価が高価であるため, 現実的な計算予算の下で構成することが困難である。
LLMポストトレーニングにおける構成選択のための予算対応2段階フレームワークであるAutoPipeを提案する。
オフラインでは、AutoPipeは、データセット条件の学習からランクまでのサロゲートを履歴実行から学び、データセット内の好みをキャプチャし、設定空間の有望な領域への転送可能なガイダンスを提供する。
オンラインの新しいデータセットでは、AutoPipeはオフラインガイダンスを使用してベイズ最適化とデータセット固有の偏差をガウス処理の残留サロゲートでモデル化する。
評価コストを低減するため、各試行は、学習予測器によって早期訓練信号を低コストのプロキシにマッピングし、最終訓練後のパフォーマンスを向上する。
バイオメディカル推論タスクの実験によると、AutoPipeはオフラインのみのベースラインを一貫して上回り、最強のオンラインHPOベースラインで同等のパフォーマンスを達成し、計算コストの10%未満を消費している。
関連論文リスト
- The Chicken and Egg Dilemma: Co-optimizing Data and Model Configurations for LLMs [86.27977008139435]
JoBSは、ベイジアン最適化を支援するために、スケーリング法則にインスパイアされたパフォーマンス予測器を使用するアプローチである。
JoBSの平均的後悔を調査し、後悔を最小限に抑えるために最適な予算配分を考案する。
論文 参考訳(メタデータ) (2026-02-09T07:33:40Z) - TwIST: Rigging the Lottery in Transformers with Independent Subnetwork Training [6.7228358095570995]
TwISTは、分散トレーニングフレームワークで、効率的な大規模言語モデルのスカラー化を実現している。
マルチワークを並列にトレーニングし、パラメータを定期的に集約し、トレーニング中に新しいワークを再サンプリングする。
キャリブレーションやヘッセンベースのリカバリのようなポストトレーニング手順を必要とせず、高品質なワーク(金のチケット)を識別する。
論文 参考訳(メタデータ) (2025-11-06T02:13:24Z) - Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Towards a Proactive Autoscaling Framework for Data Stream Processing at the Edge using GRU and Transfer Learning [0.0]
実世界のDSPデータセットと合成DSPデータセットを用いて,GRUニューラルネットワークが上流の負荷を予測する方法を示す。
転送学習フレームワークは、予測モデルをオンラインストリーム処理システムに統合する。
負荷予測のための軽量GRUモデルは、実世界のデータセット上で最大1.3%のSMAPE値を記録した。
論文 参考訳(メタデータ) (2025-07-19T12:47:50Z) - Constrain Alignment with Sparse Autoencoders [45.131670081186]
特徴レベルの制約付き優先度最適化は、安定性を確保しつつアライメントプロセスを簡素化するために設計された新しい手法である。
提案手法は、訓練されたスパースオートエンコーダで活性化されるスパース機能と、逐次KL分散の品質を用いて効率を向上する。
論文 参考訳(メタデータ) (2024-11-12T07:54:13Z) - Unleashing the Power of Pre-trained Language Models for Offline Reinforcement Learning [50.9692060692705]
本稿では、オフラインRL用の決定変換器をベースとした一般的なフレームワークである、$textbfMo$tion Control(textbfLaMo$)のための$textbfLanguage Modelsを紹介する。
私たちのフレームワークは4つの重要なコンポーネントを強調しています。
逐次事前学習したLMを用いた決定変換器の初期化(2)LoRA微細調整法を用いて
特に,本手法は,限られたデータサンプルを持つシナリオにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。