論文の概要: When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning
- arxiv url: http://arxiv.org/abs/2509.13079v1
- Date: Tue, 16 Sep 2025 13:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 17:50:53.107994
- Title: When Inverse Data Outperforms: Exploring the Pitfalls of Mixed Data in Multi-Stage Fine-Tuning
- Title(参考訳): 逆データ性能:マルチステージファインチューニングにおける混合データの落とし穴探索
- Authors: Mengyi Deng, Xin Li, Tingyu Zhu, Zhicheng Yang, Zhijiang Guo, Wei Wang,
- Abstract要約: 我々は、s1kから1000のフォワード例を逆転させた高品質な逆推論データセットを構築した。
教師付き微調整中における前向きと逆方向のデータ混在が方向の区別を弱めることが判明した。
これらの結果は、混在した推論データが相互に競合する監視信号を導入し、ロバストで方向対応のアライメント戦略の必要性を強調していることを示唆している。
- 参考スコア(独自算出の注目度): 19.873408132011132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing work has shown that o1-level performance can be achieved with limited data distillation, but most existing methods focus on unidirectional supervised fine-tuning (SFT), overlooking the intricate interplay between diverse reasoning patterns. In this paper, we construct r1k, a high-quality reverse reasoning dataset derived by inverting 1,000 forward examples from s1k, and examine how SFT and Direct Preference Optimization (DPO) affect alignment under bidirectional reasoning objectives. SFT on r1k yields a 1.6%--6.8% accuracy improvement over s1k across evaluated benchmarks. However, naively mixing forward and reverse data during SFT weakens the directional distinction. Although DPO can partially recover this distinction, it also suppresses less preferred reasoning paths by shifting the probability mass toward irrelevant outputs. These findings suggest that mixed reasoning data introduce conflicting supervision signals, underscoring the need for robust and direction-aware alignment strategies.
- Abstract(参考訳): 既存の研究によると、o1レベルの性能は限られたデータ蒸留で達成できるが、既存のほとんどの手法は一方向教師付き微調整(SFT)に焦点を当てており、多様な推論パターン間の複雑な相互作用を見越している。
本稿では、s1kから1000のフォワード例を反転させた高品質な逆推論データセットであるr1kを構築し、SFTと直接選好最適化(DPO)が双方向の推論対象下でのアライメントにどのように影響するかを検討する。
r1k上のSFTは評価ベンチマークでs1kよりも1.6%から6.8%精度が向上した。
しかし、SFT中の前方と逆のデータは、方向の区別を弱める。
DPOはこの区別を部分的に回復できるが、確率質量を無関係な出力にシフトさせることにより、あまり好ましくない推論経路を抑える。
これらの結果は、混在した推論データが相互に競合する監視信号を導入し、ロバストで方向対応のアライメント戦略の必要性を強調していることを示唆している。
関連論文リスト
- Harnessing Negative Signals: Reinforcement Distillation from Teacher Data for LLM Reasoning [21.70706473875226]
本稿では,2段階のフレームワークであるReinforcement Distillation (REDI)を提案する。
Supervised Fine-Tuning (SFT) による正のトレースから学ぶステージ1
ステージ2は、提案したREDI目標を通じて、正と負の両方のトレースを用いてモデルをさらに洗練する。
DPO/SimPOを併用したベースラインリジェクションサンプリングSFTやSFTよりもREDIが優れていることを示す実験的検討を行った。
論文 参考訳(メタデータ) (2025-05-30T17:47:17Z) - Discriminative Finetuning of Generative Large Language Models without Reward Models and Human Preference Data [73.04828796123581]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) を整列するための重要なステップとなっている。
本稿では,SFTの改良版であるDFT(Driminative Fine-Tuning)を紹介する。
i) 入力された全ての可能な出力のうち、解答の判別可能性を明示的にモデル化することにより、微調整LDMの判別確率フレームワーク、(ii) この判別可能性を最適化するための効率的なアルゴリズム、(iii) DFTの有効性を実証する広範な実験を含む。
論文 参考訳(メタデータ) (2025-02-25T22:38:55Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - As Simple as Fine-tuning: LLM Alignment via Bidirectional Negative Feedback Loss [26.860139372768092]
本稿では、最適化中に安定な双方向負のフィードバック(BNF)を確立する新しいアライメント損失を提案する。
提案するBNF損失は, 対意に対照的な損失が不要となる。
我々は、2つの挑戦的なQAベンチマークと4つの推論ベンチマークにまたがる広範な実験を行っている。
論文 参考訳(メタデータ) (2024-10-07T08:44:04Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Distributionally and Adversarially Robust Logistic Regression via Intersecting Wasserstein Balls [8.720733751119994]
提案手法は,提案手法が標準データセットのベンチマーク手法よりも優れていることを示す。
前者からインスピレーションを得て、ロジスティック回帰のためにAROのワッサーシュタイン DR について検討し、トラクタブル凸最適化の修正が認められることを示す。
論文 参考訳(メタデータ) (2024-07-18T15:59:37Z) - A Deep Dive into the Trade-Offs of Parameter-Efficient Preference Alignment Techniques [63.10251271444959]
大規模言語モデルは最初、数兆のトークンで事前訓練され、その後、特定の好みに合わせて命令調整または調整される。
我々は,3つの重要な軸に対する人気選択の影響を詳細に調査する。
300以上の実験にまたがるセットアップでは、一貫した傾向と予期せぬ結果が明らかになる。
論文 参考訳(メタデータ) (2024-06-07T12:25:51Z) - The Gaps between Pre-train and Downstream Settings in Bias Evaluation
and Debiasing [74.7319697510621]
In-Context Learning (ICL)は、FTベースのデバイアス法と比較して、PLMの変更を小さくする。
ICL-based debiasing method is a higher correlation between intrinsic and extrinsic bias scores than FT-based method。
論文 参考訳(メタデータ) (2024-01-16T17:15:08Z) - Joint Metrics Matter: A Better Standard for Trajectory Forecasting [67.1375677218281]
マルチモーダル・トラジェクトリ・予測法 : シングルエージェント・メトリクス(マージナル・メトリクス)を用いた評価
余分な指標にのみ注目することは、グループとして明確に一緒に歩いている人々のために、軌跡の衝突や軌跡のばらつきといった、不自然な予測につながる可能性がある。
本稿では,JADE,JFDE,衝突速度といったマルチエージェントメトリクス(ジョイントメトリクス)に関して,最先端トラジェクトリ予測手法の総合評価を行った。
論文 参考訳(メタデータ) (2023-05-10T16:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。