論文の概要: Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.23873v1
- Date: Sun, 28 Sep 2025 13:27:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.498351
- Title: Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning
- Title(参考訳): プルーニング・ギャンブルの勝利 : 効率的なスーパービジョンファインチューニングのためのジョイントサンプルとトーケン・プルーニングの統一的アプローチ
- Authors: Shaobo Wang, Jiaming Wang, Jiajun Zhang, Cong Wang, Yue Min, Zichen Wen, Fei Huang, Huiqiang Jiang, Junyang Lin, Dayiheng Liu, Linfeng Zhang,
- Abstract要約: サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
- 参考スコア(独自算出の注目度): 71.30276778807068
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As supervised fine-tuning (SFT) evolves from a lightweight post-training step into a compute-intensive phase rivaling mid-training in scale, data efficiency has become critical for aligning large language models (LLMs) under tight budgets. Existing data pruning methods suffer from a fragmented design: they operate either at the sample level or the token level in isolation, failing to jointly optimize both dimensions. This disconnect leads to significant inefficiencies--high-value samples may still contain redundant tokens, while token-level pruning often discards crucial instructional or corrective signals embedded in individual examples. To address this bottleneck, we introduce the Error-Uncertainty (EU) Plane, a diagnostic framework that jointly characterizes the heterogeneous utility of training data across samples and tokens. Guided by this insight, we propose Quadrant-based Tuning (Q-Tuning), a unified framework that strategically coordinates sample pruning and token pruning. Q-Tuning employs a two-stage strategy: first, it performs sample-level triage to retain examples rich in informative misconceptions or calibration signals; second, it applies an asymmetric token-pruning policy, using a context-aware scoring mechanism to trim less salient tokens exclusively from misconception samples while preserving calibration samples in their entirety. Our method sets a new state of the art across five diverse benchmarks. Remarkably, on SmolLM2-1.7B, Q-Tuning achieves a +38\% average improvement over the full-data SFT baseline using only 12.5\% of the original training data. As the first dynamic pruning approach to consistently outperform full-data training, Q-Tuning provides a practical and scalable blueprint for maximizing data utilization in budget-constrained LLM SFT.
- Abstract(参考訳): 教師付き微調整(SFT)は、軽量な後訓練段階から大規模訓練に匹敵する計算集約的なフェーズへと進化するにつれて、データ効率は、厳格な予算下での大規模言語モデル(LLM)の整合に欠かせないものとなっている。
既存のデータプルーニングメソッドは断片的な設計に悩まされており、サンプルレベルかトークンレベルを分離して動作し、両方の次元を共同で最適化することができない。
高い値のサンプルは依然として冗長なトークンを含んでいるが、トークンレベルのプルーニングは個々の例に埋め込まれた重要な命令信号や修正信号を捨てることが多い。
このボトルネックに対処するために、サンプルとトークンをまたいだトレーニングデータの異種ユーティリティを共同で特徴付ける診断フレームワークであるError-Uncertainty (EU) Planeを導入する。
この知見に基づいて,サンプルプルーニングとトークンプルーニングを戦略的にコーディネートする統合フレームワークであるQuadrant-based Tuning(Q-Tuning)を提案する。
Q-Tuningは2段階の戦略を採用している: まず、情報的誤解や校正信号に富んだ例を保持するためにサンプルレベルのトリアージを実行する。
提案手法は5つのベンチマークにまたがって新しい最先端のベンチマークを設定できる。
注目すべきは、SmolLM2-1.7Bでは、Q-Tuningはトレーニングデータの12.5\%しか使用せず、フルデータSFTベースラインに対して+38\%の平均的な改善を実現していることである。
フルデータトレーニングを一貫して上回る最初のダイナミックプルーニングアプローチとして、Q-Tuningは、予算制約付きLLM SFTにおけるデータ利用を最大化するための実用的でスケーラブルな青写真を提供する。
関連論文リスト
- EconProver: Towards More Economical Test-Time Scaling for Automated Theorem Proving [64.15371139980802]
大規模言語モデル(LLM)は、最近、自動定理証明(ATP)の分野を進歩させた。
ATPモデルに対する異なるテスト時間スケーリング戦略は、推論にかなりの計算オーバーヘッドをもたらすことを示す。
本稿では,統一EconRLパイプラインに統合可能な2つの補完手法を提案する。
論文 参考訳(メタデータ) (2025-09-16T03:00:13Z) - Boosted Training of Lightweight Early Exits for Optimizing CNN Image Classification Inference [47.027290803102666]
我々は、分岐学習と推論時データ分布を整合させるシーケンシャルなトレーニング手法を導入する。
ResNet18バックボーンによるCINIC-10データセットの実験では、BTS-EEが非ブートトレーニングを一貫して上回っていることが示されている。
これらの結果は,産業検査,組込みビジョン,UAVに基づく監視などの応用において,実用的効率の向上をもたらす。
論文 参考訳(メタデータ) (2025-09-10T06:47:49Z) - A Scalable Pretraining Framework for Link Prediction with Efficient Adaptation [16.82426251068573]
リンク予測(LP)は、グラフ機械学習において重要なタスクである。
既存の手法は、疎結合性からの限られた監督を含む重要な課題に直面している。
これらの課題に対処するためのソリューションとして,事前学習について検討する。
論文 参考訳(メタデータ) (2025-08-06T17:10:31Z) - AdaDeDup: Adaptive Hybrid Data Pruning for Efficient Large-Scale Object Detection Training [33.01500681857408]
我々は、密度に基づくプルーニングとモデルインフォームドフィードバックをクラスタ適応的に統合する新しいフレームワークであるAdaptive De-Duplication (AdaDeDup)を紹介した。
これは、顕著なベースラインを著しく上回り、性能劣化を著しく低減し、20%のデータを刈り取りながら、ほぼオリジナルに近いモデル性能を達成する。
論文 参考訳(メタデータ) (2025-06-24T22:35:51Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Learning from Data with Noisy Labels Using Temporal Self-Ensemble [11.245833546360386]
ディープニューラルネットワーク(DNN)はノイズラベルを記憶する膨大な能力を持つ。
現在最先端の手法では、損失の少ないサンプルを用いて二重ネットワークを訓練するコトレーニング方式が提案されている。
本稿では,単一のネットワークのみをトレーニングすることで,シンプルで効果的なロバストトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-21T08:16:31Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。