論文の概要: SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2602.07464v1
- Date: Sat, 07 Feb 2026 09:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.635612
- Title: SED-SFT: Selectively Encouraging Diversity in Supervised Fine-Tuning
- Title(参考訳): SED-SFT:監督された微調整における多様性を選択的に促進する
- Authors: Yijie Chen, Yijin Liu, Fandong Meng,
- Abstract要約: Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。
本稿では,トークン探索空間に基づく多様性を適応的に促進するSED-SFTを提案する。
このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
- 参考スコア(独自算出の注目度): 54.393763477932474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised Fine-Tuning (SFT) followed by Reinforcement Learning (RL) has emerged as the standard post-training paradigm for large language models (LLMs). However, the conventional SFT process, driven by Cross-Entropy (CE) loss, often induces mode collapse, where models over-concentrate on specific response patterns. This lack of distributional diversity severely restricts the exploration efficiency required for subsequent RL. While recent studies have attempted to improve SFT by replacing the CE loss, aiming to preserve diversity or refine the update policy, they fail to adequately balance diversity and accuracy, thereby yielding suboptimal performance after RL. To address the mode collapse problem, we propose SED-SFT, which adaptively encourages diversity based on the token exploration space. This framework introduces a selective entropy regularization term with a selective masking mechanism into the optimization objective. Extensive experiments across eight mathematical benchmarks demonstrate that SED-SFT significantly enhances generation diversity with a negligible computational overhead increase compared with CE loss, yielding average improvements of 2.06 and 1.20 points in subsequent RL performance over standard CE-based baselines on Llama-3.2-3B-Instruct and Qwen2.5-Math-7B-Instruct, respectively. The code is publicly available at https://github.com/pppa2019/SED-SFT
- Abstract(参考訳): Supervised Fine-Tuning (SFT) と Reinforcement Learning (RL) は、大規模言語モデル(LLM)の標準訓練パラダイムとして登場した。
しかしながら、従来のSFTプロセスは、クロスエントロピー(CE)損失によって駆動され、しばしばモード崩壊を引き起こし、モデルが特定の応答パターンに過度に集中する。
この分布多様性の欠如は、その後のRLに必要な探査効率を著しく制限する。
近年の研究では、CE損失を代替し、多様性を保ち、更新ポリシーを洗練させることによってSFTを改善する試みが行われているが、多様性と精度を適切にバランスさせることができず、RL後の最適性能が得られなかった。
モード崩壊問題に対処するため,トークン探索空間に基づいた多様性を適応的に促進するSED-SFTを提案する。
このフレームワークは、選択的なマスキング機構を備えた選択エントロピー正規化項を最適化目的に導入する。
SED-SFTはCEの損失と比較して計算オーバーヘッドが無視できるほど増大し、Llama-3.2-3B-InstructとQwen2.5-Math-7B-Instructの標準CEベースラインよりも平均2.06と1.20ポイント向上した。
コードはhttps://github.com/pppa2019/SED-SFTで公開されている。
関連論文リスト
- BinaryPPO: Efficient Policy Optimization for Binary Classification [10.249166265785686]
Supervised Fine-tuning (SFT) はバイナリ分類タスクの標準的なアプローチである。
報奨学習問題としてバイナリ分類を再構成するフレームワークであるBinaryPPOを紹介する。
バイナリPPOの精度は40-60ポイント向上し、最大99%まで向上し、ほぼ監督されたベースラインとなる。
論文 参考訳(メタデータ) (2026-02-02T19:22:45Z) - Trust-Region Adaptive Policy Optimization [82.09255251747818]
後学習法は,大規模言語モデル(LLM)の複雑な推論能力の向上に重要な役割を果たしている。
トレーニングインスタンス毎に,Fun-Tuning(SFT)とReinforcement Learning(RL)をインターリーブするフレームワークであるTRAPOを紹介する。
5つの数学的推論ベンチマークの実験は、TRAPOが標準SFT、RL、SFT-then-RLパイプラインを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:37:07Z) - Enhancing the Outcome Reward-based RL Training of MLLMs with Self-Consistency Sampling [90.87033586963828]
マルチモーダル大言語モデル(MLLM)のステップ・バイ・ステップ推論を洗練させる手段としては,アウトカム・リワード強化学習(RL)が一般的であり,ますます重要になっている。
この問題を修正するために,自己整合サンプリング(SCS)を提案する。
Qwen2.5-VL-7B-インストラクトに基づいて、SCSは、無視できる余分な計算を伴う6つのマルチモーダルベンチマークにおいて、最大7.7ポイントの精度を向上する。
論文 参考訳(メタデータ) (2025-11-13T18:59:57Z) - MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources [113.33902847941941]
VAS (Variance-Aware Sampling) は、Variance Promotion Score (VPS) によって導かれるデータ選択戦略である。
我々は、1.6MのCoT冷間開始データと15kのRLQAペアを含む大規模かつ慎重にキュレートされたリソースをリリースする。
数学的推論ベンチマークによる実験では、キュレートされたデータと提案されたVASの有効性が示されている。
論文 参考訳(メタデータ) (2025-09-25T14:58:29Z) - On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification [61.607788999847564]
LLM(Large Language Model)のためのSFT(Supervised Fine-Tuning)の改良法を提案する。
標準SFT勾配は、モデルの一般化能力を著しく制限する問題のある報酬構造を暗黙的に符号化する。
本稿では,このトークンの確率で目的関数を動的に再スケーリングすることにより,各トークンの勾配を安定化する動的微調整(DFT)を提案する。
論文 参考訳(メタデータ) (2025-08-07T17:59:04Z) - Preserving Diversity in Supervised Fine-Tuning of Large Language Models [29.02934952075354]
本稿では,スーパーバイザードファインチューニング(SFT)の新しいゲーム理論式を提案する。
このフレームワークでは、学習プロセスを制御するために補助変数が導入された。
提案したゲーム理論アプローチが,エントロピー正則化による逆KL最小化問題に結びつくことを証明した。
論文 参考訳(メタデータ) (2024-08-29T16:21:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。