論文の概要: Learning to Adapt SFT Data for Better Reasoning Generalization
- arxiv url: http://arxiv.org/abs/2605.26924v1
- Date: Tue, 26 May 2026 12:20:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.071901
- Title: Learning to Adapt SFT Data for Better Reasoning Generalization
- Title(参考訳): 推論一般化のためのSFTデータ適応学習
- Authors: Lisong Sun, Li Wang, Chen Zhang, Jinyang Wu, Kui Zhang, Tianhao Peng, Wenjun Wu,
- Abstract要約: 教師付き微調整(英: supervised fine-tuning、SFT)は、密集した監督を提供し、効率的な訓練を可能にするために広く用いられている。
DART(Data Adaptation for Reasoning Tuning)は、SFTデータをモデル適応型監視に変換するための強化学習を備えたマッパーモデルを訓練する。
実験により、DARTは一般化を改善し、直接RLよりも訓練効率を向上し、モデルが標準のSFTを超えるのに役立つことが示された。
- 参考スコア(独自算出の注目度): 14.088766743760575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable progress, with post-training playing a crucial role in enhancing their reasoning capabilities. Among post-training paradigms, supervised fine-tuning (SFT) is widely used: it leverages external data to provide dense supervision and enables efficient training. However, directly fine-tuning on expert data can hurt generalization when the data distribution is mismatched with the target model's own distribution. In this work, we propose Data Adaptation for Reasoning Tuning (DART), which formulates the use of a fixed, potentially distributionally misaligned SFT dataset as an optimization problem over demonstration transformations. DART trains a mapper model with reinforcement learning to convert original SFT data into model-adapted supervision that better matches the target model's distribution and learning preferences. The transformed data are then used for SFT, allowing the target model to better exploit external supervision. Experiments across multiple models and datasets show that DART improves generalization, achieves higher training efficiency than direct RL, and helps models surpass standard SFT. Our code is available at https://anonymous.4open.science/r/DART525E50D.
- Abstract(参考訳): 大規模言語モデル(LLM)は目覚ましい進歩を遂げており、推論能力を高める上で、ポストトレーニングが重要な役割を担っている。
ポストトレーニングのパラダイムの中で、教師付き微調整(SFT)が広く使われている。
しかし、専門家データを直接微調整することは、データ分布がターゲットモデル自身の分布と一致していない場合、一般化を損なう可能性がある。
本研究では、実演変換に対する最適化問題として、固定的、潜在的に分布的に不一致なSFTデータセットの使用を定式化する、推論チューニングのためのデータ適応(DART)を提案する。
DARTは、強化学習でマッパーモデルをトレーニングし、元のSFTデータをモデル適応型の監視に変換する。
変換されたデータはSFTに使用されるため、ターゲットモデルは外部の監視をよりうまく活用することができる。
複数のモデルとデータセットにわたる実験により、DARTは一般化を改善し、直接RLよりも高いトレーニング効率を実現し、標準のSFTを超えるモデルを支援することが示されている。
私たちのコードはhttps://anonymous.4open.science/r/DART525E50Dで利用可能です。
関連論文リスト
- Theoretical Perspectives on Data Quality and Synergistic Effects in Pre- and Post-Training Reasoning Models [56.12341509545198]
大規模言語モデル(LLM)は、大量のデータセット上で事前訓練され、後に教師付き微調整(SFT)または強化学習(RL)を介して指導訓練される。
ベストプラクティスは大規模で多様な事前訓練データを強調するが、ポストトレーニングは異なる。
線形回帰のための文脈内重み予測タスクで訓練された変圧器を理論的に解析する。
論文 参考訳(メタデータ) (2026-03-01T21:58:09Z) - Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting [18.680059467974825]
言語モデル(LM)は、ダウンストリームタスクに特化するために、教師付き微調整(SFT)によって適応されることが多い。
微調整データに制限がある典型的なシナリオでは、SFTはLMを過度に適合させ、急激なパターンに依存する。
本研究では,SFT がデータ制限のある LM を微調整する際の問題を緩和するための,単純かつ効果的な正規化手法であるLfU を提案する。
論文 参考訳(メタデータ) (2025-11-17T06:57:44Z) - The Harder The Better: Maintaining Supervised Fine-tuning Generalization with Less but Harder Data [6.136716058442803]
我々は,データ選択とアノテーション指導のための認知科学に触発されたフレームワークTHTB(The Harder The Better)を提案する。
実験の結果、THTBは、データの5%しかトレーニングされていないモデルを、フルデータセットトレーニングを上回るパフォーマンスで実現している。
さらにTHTBは、垂直領域で効果的なガイダンスを提供するため、2%のデータでトレーニングされたモデルが、はるかに大きなデータセットでトレーニングされたモデルを上回ることができる。
論文 参考訳(メタデータ) (2025-10-14T08:25:24Z) - InfiAlign: A Scalable and Sample-Efficient Framework for Aligning LLMs to Enhance Reasoning Capabilities [27.09178257629886]
InfiAlignは、大規模言語モデル(LLM)のためのスケーラブルでサンプル効率の良いポストトレーニングフレームワークである
InfiAlignの中核は、オープンソースの推論から高品質なアライメントデータを自動的にキュレートする堅牢なデータ選択パイプラインである。
本結果は,基本データ選択とフルステージポストトレーニングの併用の有効性を強調した。
論文 参考訳(メタデータ) (2025-08-07T15:34:06Z) - Improved Supervised Fine-Tuning for Large Language Models to Mitigate Catastrophic Forgetting [1.5595148909011116]
Supervised Fine-Tuning (SFT) は、Large Language Models (LLM) の命令追従能力を高めるための重要なステップである。
SFTはしばしば、破滅的忘れという現象として、モデルの一般的な能力の低下につながる。
本稿では,従来のSFTデータへのアクセスを必要とせずに,破滅的な忘れを効果的に軽減する,新しい費用対効果のSFT手法を提案する。
論文 参考訳(メタデータ) (2025-06-11T06:23:50Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Preference-Oriented Supervised Fine-Tuning: Favoring Target Model Over Aligned Large Language Models [12.500777267361102]
我々は,新しいtextbfpreference-textbforiented 教師付き textbffine-textbftuning アプローチ,すなわち PoFT を導入する。
直感的には、SFTを特定の嗜好を与えることによって強化することであり、同じSFTデータ上で、整列 LLM 上でターゲットモデルをテキストフォバリングする。
PoFTは、さまざまなトレーニングデータセットとベースモデルにわたるSFTベースラインに対して、安定的で一貫した改善を実現している。
論文 参考訳(メタデータ) (2024-12-17T12:49:14Z) - Adaptive Data Optimization: Dynamic Sample Selection with Scaling Laws [59.03420759554073]
本稿では,オンライン手法でデータ分散を最適化するアルゴリズムであるAdaptive Data Optimization (ADO)を導入する。
ADOは外部の知識やプロキシモデル、モデル更新の変更を必要としない。
ADOは、ドメインごとのスケーリング法則を使用して、トレーニング中の各ドメインの学習ポテンシャルを推定し、データ混合を調整する。
論文 参考訳(メタデータ) (2024-10-15T17:47:44Z) - DavIR: Data Selection via Implicit Reward for Large Language Models [62.59514469369608]
DavIRは、学習後の大規模言語モデルのためのモデルベースのデータ選択手法である。
DavIRで選択したAlpacaデータセットの6%は、LLaMAモデルとGemmaモデルの両方を操り、フル52Kデータセットでトレーニングされたモデルと比較すると、優れたパフォーマンスが得られる。
論文 参考訳(メタデータ) (2023-10-16T07:26:24Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。