論文の概要: Decouple before Integration: Test-time Synthesis of SFT and RLVR Task Vectors
- arxiv url: http://arxiv.org/abs/2605.00610v1
- Date: Fri, 01 May 2026 12:20:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.946648
- Title: Decouple before Integration: Test-time Synthesis of SFT and RLVR Task Vectors
- Title(参考訳): 統合前の分解:SFTおよびRLVRタスクベクトルのテスト時間合成
- Authors: Chaohao Yuan, Chenghao Xiao, Yu Rong, Hong Cheng, Long-Kai Huang,
- Abstract要約: タスクベクトルのレンズを用いてSFTとRLVRを解析する。
本稿では,SFT と RLVR のチェックポイントを独立してトレーニングできるように,Decoupled Test-time Synthesis (DoTS) を提案する。
- 参考スコア(独自算出の注目度): 26.233592394784868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: SFT and RLVR represent two fundamental yet distinct paradigms for LLM post-training, each excelling in distinct dimensions. SFT expands knowledge breadth while RLVR enhances reasoning depth. Yet integrating these complementary strengths remains a formidable challenge. Sequential training can cause catastrophic forgetting, and joint optimization often suffers from severe gradient conflicts. We analyze SFT and RLVR through the lens of task vectors and reveal three structural properties behind these failures: a 30* magnitude disparity, 45* sign interference, and heterogeneous module-wise update distributions. These findings show SFT and RLVR are difficult to integrate directly, but they also suggest that the two paradigms modify partly complementary components of the model. Motivated by these observations, we propose Decoupled Test-time Synthesis (DoTS), a post-hoc framework allows SFT and RLVR checkpoints to be trained independently and synthesizes their capabilities only at inference time via task vector arithmetic, without updating model parameters. To reduce interference, DOTS applies selective sparsification with norm-preserving rescaling. It then uses Bayesian optimization on a small set of unlabeled queries to search for combination coefficients on the Pareto frontier of consistency and perplexity. Empirically, \ours matches or exceeds the performance of training-based SFT--RLVR integration methods across multiple mathematical reasoning benchmarks, incurring only $\sim$3\% of the computational cost. When applied to stronger post-trained checkpoints, DOTS surpasses SOTA models and generalizes to out-of-domain benchmarks without re-tuning. Code is available at https://github.com/chaohaoyuan/DoTS.
- Abstract(参考訳): SFTとRLVRはLLMのポストトレーニングの基本的な2つのパラダイムであり、それぞれが異なる次元で優れている。
SFTは知識の範囲を広げ、RLVRは推論深度を高める。
しかし、これらの補完的な強みを統合することは、依然として非常に難しい課題だ。
逐次訓練は破滅的な忘れを招き、共同最適化はしばしば深刻な勾配の衝突に悩まされる。
我々はタスクベクトルのレンズを通してSFTとRLVRを分析し、これらの障害の背後にある3つの構造的特性を明らかにする。
これらの結果から,SFTとRLVRは直接統合が困難であることが示唆された。
これらの観測により,SFT と RLVR のチェックポイントを独立に訓練し,モデルパラメータを更新することなく,タスクベクトル演算による推論時にのみ,それらの機能を合成することのできるポストホックフレームワークである Decoupled Test-time Synthesis (DoTS) を提案する。
干渉を減らすため、DOTSはノルム保存再スケーリングによる選択的スパーシフィケーションを適用している。
その後、ベイジアン最適化をラベルなしクエリの小さなセットで使用し、一貫性とパープレキシティのパレートフロンティア上での組合せ係数を探索する。
経験的に、Shaoursは複数の数学的推論ベンチマークにまたがるトレーニングベースのSFT-RLVR統合手法の性能と一致し、計算コストのわずか$\sim$3\%にしかならない。
訓練後のより強力なチェックポイントに適用すると、DOTSはSOTAモデルを超え、再チューニングせずにドメイン外のベンチマークに一般化する。
コードはhttps://github.com/chaohaoyuan/DoTS.comで入手できる。
関連論文リスト
- Relatron: Automating Relational Machine Learning over Relational Databases [50.94254514286021]
本稿では, RDL と DFS を共有設計空間に統合し, 多様な RDB タスクを対象としたアーキテクチャ中心の検索を行う。
RDLはDFSを一貫して上回り、高いタスク依存性を持つ。(2)タスク全体において単一のアーキテクチャが支配的であり、タスク認識モデル選択の必要性を強調し、精度は選択アーキテクチャの信頼性の低いガイドである。
論文 参考訳(メタデータ) (2026-02-26T02:45:22Z) - The Path Not Taken: RLVR Provably Learns Off the Principals [85.41043469428365]
スパーシティはモデル条件の最適化バイアスの表面積であることを示す。
我々はこれらの力学を三ゲージ理論で機械的に説明する。
本稿では,RLVRの学習力学のパラメータレベルの特徴付けを行う。
論文 参考訳(メタデータ) (2025-11-11T18:49:45Z) - ViSurf: Visual Supervised-and-Reinforcement Fine-Tuning for Large Vision-and-Language Models [52.819394001139955]
Supervised Fine-Tuning (SFT) と Reinforcement Learning with Verifiable Rewards (RLVR) は、LVLM(Large Vision-and-Language Models)の典型的なポストトレーニングパラダイムである。
本研究では,SFTとRLVRの長所を1段階にまとめる統合後学習パラダイムViSurfを提案する。
ViSurfの中核は、RLVRのロールアウトに基調ラベルを注入することであり、同時に外部監視と内部強化を提供する。
論文 参考訳(メタデータ) (2025-10-12T13:42:55Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - Harnessing Optimization Dynamics for Curvature-Informed Model Merging [17.42364575754576]
教師付き微調整では、複数の機能ベースのSFTチェックポイントを1つのモデルに統合する必要がある。
我々は、最適化トラジェクトリ・アウェア(OTA)マージと高速フィッシャーグラフティング(FFG)を導入する。
OTA+FFGは、強力な重量空間ベースラインよりもマージモデルの品質を改善し、負の転送を低減し、スパーシティレベルにわたって堅牢である。
論文 参考訳(メタデータ) (2025-09-14T08:59:53Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - Sequential Federated Learning in Hierarchical Architecture on Non-IID Datasets [25.010661914466354]
実連合学習(FL)システムでは、クライアントとパラメータ(PS)の間でモデルパラメータを渡す際の通信オーバーヘッドがボトルネックとなることが多い。
そこで本研究では,SFL(Sequence FL) HFLを初めて提案し,各サーバに隣接する2つのES間でデータを渡すことで,中央PSを除去し,モデルを完成させることを可能にする。
論文 参考訳(メタデータ) (2024-08-19T07:43:35Z) - Unlock the Correlation between Supervised Fine-Tuning and Reinforcement Learning in Training Code Large Language Models [12.656574142412484]
本研究では,教師付き微調整と強化学習の相関関係の解明を試みる。
SFTの一般化には原子関数と合成関数の両方が不可欠である。
論文 参考訳(メタデータ) (2024-06-14T03:39:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。