論文の概要: SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization
- arxiv url: http://arxiv.org/abs/2604.13515v1
- Date: Wed, 15 Apr 2026 06:00:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.403871
- Title: SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization
- Title(参考訳): SFT-GRPOデータオーバーラップによるオートフォーマライゼーションのポストトレーニングハイパーパラメータ
- Authors: Xiaole Su, Kasey Zhang, Andy Lyu,
- Abstract要約: SFT と GRPO のデータを分離し続けることは、計算コストゼロで完全にオーバーラップする。
その結果,コンパイルモデルにおいて,コンパイルのセマンティックギャップが30パーセントを超えることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised fine-tuning (SFT) followed by Group Relative Policy Optimization (GRPO) is a common post-training recipe. We conduct a controlled ablation over SFT-GRPO data overlap, evaluating Qwen3-8B (thinking disabled) post-trained for Lean 4 autoformalization under six conditions that differ solely in training recipe: a base model, SFT-only, GRPO-only, and three SFT+GRPO configurations where 0 percent, 30 percent, or 100 percent of the GRPO prompts coincide with the SFT corpus. Keeping SFT and GRPO data disjoint consistently outperforms full overlap at zero additional compute cost. Evaluating on Gaokao-Formal and PutnamBench under both compile pass at k and semantic pass at k assessed by an LLM judge, we find that lower overlap is monotonically associated with higher compilation and semantic accuracy. At 0 percent overlap, GRPO yields a 10.4 percentage point semantic gain over SFT alone on Gaokao, while at 100 percent overlap both metrics remain flat, rendering the GRPO stage effectively redundant. We further show that dual-metric evaluation reveals compile semantic gaps exceeding 30 percentage points for the highest compiling models, a disparity invisible under compile-only benchmarking. To our knowledge, this is the first controlled investigation of SFT-GRPO data overlap as a post-training hyperparameter, demonstrating how model behavior varies based on the degree of data sharing between training stages.
- Abstract(参考訳): Supervised Fine-tuning (SFT) に続いて Group Relative Policy Optimization (GRPO) が一般的である。
我々は,SFT-GRPOデータオーバーラップに対する制御的アブレーションを行い,Qwen3-8Bを,SFTコーパスと一致するベースモデル,SFT-only,GRPO-only,および3つのSFT+GRPO構成の6つの条件で,Lean 4オートフォーマル化後のQwen3-8Bの評価を行った。
SFT と GRPO のデータを分離し続けることは、計算コストゼロで完全にオーバーラップする。
ガオカオ形式とパットナムベンチを k でのコンパイルパスと LLM の判断による k でのセマンティックパスの両方で評価すると,低いオーバーラップは高いコンパイルとセマンティック精度に単調に関連していることがわかった。
0%のオーバーラップでは、GRPOはガオカオでSFTのみよりも10.4パーセントのセマンティックゲインを得るが、100%のオーバーラップは両指標が平坦であり、GRPOステージは事実上冗長である。
さらに, 2次元評価により, コンパイルのみのベンチマークにおいて, 最高のコンパイルモデルに対して, コンパイルセマンティックギャップが30パーセントを超えることが判明した。
我々の知る限り、これはSFT-GRPOデータの重なりを訓練後のハイパーパラメータとして制御した初めての調査であり、トレーニング段階間でのデータ共有の度合いに基づいてモデル行動がどのように変化するかを示すものである。
関連論文リスト
- Bridging SFT and RL: Dynamic Policy Optimization for Robust Reasoning [10.4404175363648]
大規模言語モデル(LLM)のポストトレーニングパラダイムは、基本的なジレンマに直面します。
SFTは安定性(低分散)を提供するが、高い適合バイアスに悩まされる一方、RLは探索(低バイアス)が可能であるが、高勾配のばらつきを持つ波紋である。
既存の統一最適化戦略では、これらの異なる勾配信号間の統計的衝突を見越して、単純な損失重み付けを用いることが多い。
我々は,この対立を構造的に緩和する統合フレームワークである textbfDYPO (Dynamic Policy Optimization) を提案する。
論文 参考訳(メタデータ) (2026-04-10T03:42:16Z) - An Empirical Study of SFT-DPO Interaction and Parameterization in Small Language Models [1.7559669963238091]
GPT-2スケールデコーダでは,SFT-only,DPO-only,SFT-to-DPOトレーニングとFFT(Full Fine-tuning)とLoRAを比較した。
DPOは、強いSFTよりも小さく、タスク依存的な利得を得られ、温かいスタートをせずに競合SFTの精度と一致させることができる。
論文 参考訳(メタデータ) (2026-03-20T16:27:03Z) - When Right Meets Wrong: Bilateral Context Conditioning with Reward-Confidence Correction for GRPO [18.988527161000203]
グループ相対政策最適化(GRPO)は、推論モデルを訓練するための効果的な方法として登場した。
本稿では,GRPOの目的が正解率と正解率とのマージンを暗黙的に最大化することを示す。
本稿では,モデルが相互参照を成功させる機構であるバイラテラルコンテキストコンディショニング(BICC)を提案する。
論文 参考訳(メタデータ) (2026-03-13T16:25:02Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Unbiased Dynamic Pruning for Efficient Group-Based Policy Optimization [60.87651283510059]
Group Relative Policy Optimization (GRPO) はLLM推論を効果的にスケールするが、計算コストは禁じている。
本研究では,非バイアス勾配推定を保ちながら動的プルーニングを可能にする動的プルーニングポリシー最適化(DPPO)を提案する。
刈り込みによって引き起こされるデータの空間性を軽減するため,ウィンドウベースの欲求戦略であるDense Prompt Packingを導入する。
論文 参考訳(メタデータ) (2026-03-04T14:48:53Z) - CoT-Saliency: Unified Chain-of-Thought Reasoning for Heterogeneous Saliency Tasks [96.64597365827046]
本稿では,3つの運用上不均一なサリエンシタスクを共同で処理する,最初の統合フレームワークを提案する。
タスクの不均一性を橋渡しする視覚言語モデル(VLM)において、チェーン・オブ・ソート(CoT)推論プロセスを導入する。
我々は,全タスクにまたがる特別なSOTA手法と強力なクローズドソースVLMの整合性を示す。
論文 参考訳(メタデータ) (2025-11-01T04:37:01Z) - Repurposing Synthetic Data for Fine-grained Search Agent Supervision [81.95597592711688]
LLMベースの検索エージェントは、エンティティ中心の合成データに基づいてますます訓練されている。
一般的なトレーニングメソッドは、このリッチなエンティティ情報を破棄し、代わりにスパースで結果に基づく報酬に依存します。
E-GRPO(Entity-Aware Group Relative Policy Optimization)は、高密度なエンティティ認識報酬関数を定式化する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-10-28T17:50:40Z) - UniAPL: A Unified Adversarial Preference Learning Framework for Instruct-Following [12.924923059340395]
トレーニング後のアライメントは基本的には、参照学習の統一的な問題である、と我々は主張する。
UniAPLは、SFTと嗜好データの混合バッチから共同で学習する、単一段階の統合トレーニング目標を実装している。
論文 参考訳(メタデータ) (2025-09-29T17:53:09Z) - DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Heterogeneous Federated Learning via Grouped Sequential-to-Parallel
Training [60.892342868936865]
フェデレートラーニング(Federated Learning, FL)は、プライバシ保護のためのコラボレーション機械学習パラダイムである。
本稿では,この課題に対処するため,データヘテロジニアス・ロバストFLアプローチであるFedGSPを提案する。
その結果,FedGSPは7つの最先端アプローチと比較して平均3.7%の精度向上を実現していることがわかった。
論文 参考訳(メタデータ) (2022-01-31T03:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。