論文の概要: Dr. Post-Training: A Data Regularization Perspective on LLM Post-Training
- arxiv url: http://arxiv.org/abs/2605.07063v1
- Date: Fri, 08 May 2026 00:16:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.692563
- Title: Dr. Post-Training: A Data Regularization Perspective on LLM Post-Training
- Title(参考訳): Dr. ポストトレーニング: LLM ポストトレーニングにおけるデータ正規化の視点
- Authors: Pingbang Hu, Xueshen Liu, Z. Morley Mao, Jiaqi W. Ma,
- Abstract要約: ポストトライニング(Dr. Post-Training)は、一般的なトレーニングデータをデータ誘導正規化器として再認識する新しいフレームワークである。
我々の手法は、最先端のデータ選択ベースラインを一貫して上回ることを示す。
- 参考スコア(独自算出の注目度): 9.040054119267344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data selection methods address a critical challenge in LLM post-training: effectively leveraging scarce, high-fidelity target data alongside abundant but imperfectly aligned general training data. In this work, we move beyond the data-selection framing and introduce Dr. Post-Training (Data-Regularized Post-Training), a novel framework that reconceptualizes general training data as a data-induced regularizer that prevents overfitting to the scarce target objective, rather than serving as a pool for selection. Specifically, our framework proposes that at each training step, construct a feasible set of model update directions using the general training data, and project the model update direction specified by the scarce target data onto that feasible set. Standard training and existing data selection methods arise as special cases with different choices of the data-induced regularizer, and these methods correspond to different points on a bias--variance spectrum with different regularization strength. Building on this view, we propose a family of methods offering a richer design space and more flexible bias--variance tradeoffs. For practical LLM-scale use, we introduce careful system optimizations that realize these methods with minimal overhead. Extensive experiments across SFT, RLHF, and RLVR show that our methods consistently outperform state-of-the-art data selection baselines, and system benchmarks confirm their efficiency.
- Abstract(参考訳): データ選択法は、LLMポストトレーニングにおいて重要な課題に対処する: 不十分で高忠実なターゲットデータと、豊富なが不完全な整列した一般トレーニングデータとを効果的に活用する。
本研究では,データ選択フレーミングを超えて,データ誘導正規化器として一般訓練データを再認識する新しいフレームワークであるDr. Post-Training(Data-Regularized Post-Training)を導入する。
具体的には、トレーニングの各段階において、一般的なトレーニングデータを用いてモデル更新方向の実行可能なセットを構築し、不足対象データによって指定されたモデル更新方向をその実現可能なセットに投影することを提案する。
標準トレーニングと既存のデータ選択方法は、データ誘導型正規化器の選択肢が異なる特殊な場合として発生し、これらの手法は、正規化強度の異なるバイアス分散スペクトルの異なる点に対応する。
実用的なLLMスケールの使用には,これらの手法を最小限のオーバーヘッドで実現するための注意深いシステム最適化を導入する。
SFT,RLHF,RLVRの広範な実験により,我々の手法が常に最先端のデータ選択ベースラインより優れており,システムベンチマークがそれらの効率性を確認していることがわかった。
関連論文リスト
- Sequential Data Augmentation for Generative Recommendation [54.765568804267645]
生成的レコメンデーションはパーソナライズされたシステムにおいて重要な役割を担い、ユーザの将来のインタラクションを過去の行動シーケンスから予測する。
データ拡張(Data augmentation)は、ユーザインタラクション履歴からトレーニングデータを構築するプロセスである。
我々は、サンプリングプロセスとして拡張をモデル化し、その結果のトレーニング分布の柔軟な制御を可能にする、原則化されたフレームワークであるGenPASを提案する。
ベンチマークと産業データセットを用いた実験により、GenPASは既存の戦略よりも精度、データ効率、パラメータ効率が優れていることが示された。
論文 参考訳(メタデータ) (2025-09-17T02:53:25Z) - RL-Selector: Reinforcement Learning-Guided Data Selection via Redundancy Assessment [10.284993431741377]
サンプル間の関係に基づいてサンプル冗長性を定量化する,エプシロン・サンプル被覆の概念を導入する。
我々は、強化学習プロセスとしてデータ選択を再構成し、RLセレクタを提案する。
我々の手法は、既存の最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-06-26T06:28:56Z) - Ensembles of Low-Rank Expert Adapters [9.599957499802446]
本稿では,多種多様なタスクを扱うモデルの能力を向上させるために,低ランクエキスパートアダプタ(ELREA)フレームワークの組み立てを提案する。
ELREAは、トレーニング指示をその勾配方向に基づいてクラスタ化し、さまざまな専門分野を表現している。
推論中、ELREAは、入力データの勾配とトレーニングクラスタとの類似性に基づいて、最も関連する専門家アダプタからの予測を組み合わせる。
論文 参考訳(メタデータ) (2025-01-31T18:07:21Z) - Aligning Instruction Tuning with Pre-training [61.50161961371844]
そこで我々は,AITP(Aligning Instruction Tuning with Pre-training)を提案する。
8つのベンチマークで3つの完全にオープンな大規模言語モデル(LLM)上で,AITPによる一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2025-01-16T08:27:40Z) - ROSE: A Reward-Oriented Data Selection Framework for LLM Task-Specific Instruction Tuning [26.069986067128912]
本稿では、タスク固有の命令チューニングのためのデータ選択を最適化するReward-Oriented InStruction Data sElection法であるROSEを紹介する。
ROSEは、最もタスク関連のトレーニングデータポイントを選択するために、数ショットの選好検証セットに対するトレーニングデータポイントの影響を近似するために影響定式化を適用する。
論文 参考訳(メタデータ) (2024-12-01T01:01:09Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。