論文の概要: RIFT: Repurposing Negative Samples via Reward-Informed Fine-Tuning
- arxiv url: http://arxiv.org/abs/2601.09253v1
- Date: Wed, 14 Jan 2026 07:41:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.316571
- Title: RIFT: Repurposing Negative Samples via Reward-Informed Fine-Tuning
- Title(参考訳): RIFT:Reward-Informed Fine-Tuningによる負のサンプルの再取得
- Authors: Zehua Liu, Shuqi Liu, Tao Zhong, Mingxuan Yuan,
- Abstract要約: Supervised Fine-Tuning (SFT) と Rejection Smpling Fine-Tuning (RFT) はLLMアライメントの標準規格である。
Reward Informed Fine-Tuning (RIFT) を提案する。
以上の結果から,RIFTは多品質な自己生成データを用いたアライメントに対して,堅牢でデータ効率のよい代替手段であることが示された。
- 参考スコア(独自算出の注目度): 20.822673479195334
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Supervised Fine-Tuning (SFT) and Rejection Sampling Fine-Tuning (RFT) are standard for LLM alignment, they either rely on costly expert data or discard valuable negative samples, leading to data inefficiency. To address this, we propose Reward Informed Fine-Tuning (RIFT), a simple yet effective framework that utilizes all self-generated samples. Unlike the hard thresholding of RFT, RIFT repurposes negative trajectories, reweighting the loss with scalar rewards to learn from both the positive and negative trajectories from the model outputs. To overcome the training collapse caused by naive reward integration, where direct multiplication yields an unbounded loss, we introduce a stabilized loss formulation that ensures numerical robustness and optimization efficiency. Extensive experiments on mathematical benchmarks across various base models show that RIFT consistently outperforms RFT. Our results demonstrate that RIFT is a robust and data-efficient alternative for alignment using mixed-quality, self-generated data.
- Abstract(参考訳): Supervised Fine-Tuning (SFT) と Rejection Smpling Fine-Tuning (RFT) はLSMアライメントの標準であるが、彼らは高価な専門家データに頼るか、価値ある負のサンプルを捨て、データ非効率をもたらす。
これを解決するために, 自己生成サンプルを全て活用する簡易かつ効果的なフレームワークであるReward Informed Fine-Tuning (RIFT)を提案する。
RFTのハードしきい値と異なり、RIFTは負の軌跡を再利用し、スカラー報酬で損失を再重み付けし、モデル出力から正の軌跡と負の軌跡の両方から学習する。
直接乗算が非有界な損失を生じるネーブ報酬積分によるトレーニング崩壊を克服するために,数値ロバスト性および最適化効率を保証する安定化された損失定式化を導入する。
様々な基礎モデルにまたがる数学的ベンチマークの大規模な実験は、RIFTが一貫してRTTを上回っていることを示している。
以上の結果から,RIFTは多品質な自己生成データを用いたアライメントに対して,堅牢でデータ効率のよい代替手段であることが示された。
関連論文リスト
- GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - Blending Supervised and Reinforcement Fine-Tuning with Prefix Sampling [43.835234728790795]
Prefix-RFTは、実証と探索の両方から学習を相乗化するためのハイブリッドアプローチである。
スタンドアロンの SFT と RFT の性能を上回るだけでなく、並列混合型 RFT 法よりも優れる。
論文 参考訳(メタデータ) (2025-07-02T13:04:09Z) - Rec-R1: Bridging Generative Large Language Models and User-Centric Recommendation Systems via Reinforcement Learning [13.642017219922238]
Rec-R1は大規模言語モデル(LLM)をクローズドループ最適化を通じてレコメンデーションシステムでブリッジする。
プロンプトや教師付き微調整(SFT)とは異なり、Rec-R1は固定ブラックボックスレコメンデーションモデルからのフィードバックを使って直接LLM生成を最適化する。
論文 参考訳(メタデータ) (2025-03-31T16:36:00Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - Bridging SFT and DPO for Diffusion Model Alignment with Self-Sampling Preference Optimization [67.8738082040299]
自己サンプリング優先最適化(SSPO)は,訓練後強化学習のための新しいアライメント手法である。
SSPOは、SFTのトレーニング安定性を維持しながら、ペアデータと報酬モデルの必要性を排除する。
SSPOは、テキスト・ツー・イメージベンチマークにおける以前のアプローチを全て上回り、テキスト・ツー・ビデオベンチマークにおける優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - PLReMix: Combating Noisy Labels with Pseudo-Label Relaxed Contrastive Representation Learning [7.556169113399857]
Pseudo-Label Relaxed (PLR) のコントラスト損失を導入することで、エンドツーエンドの textbfPLReMix フレームワークを提案する。
提案したPLR損失はプラガブルであり,他のLNL手法に統合し,その性能改善を観察した。
論文 参考訳(メタデータ) (2024-02-27T15:22:20Z) - Scaling Relationship on Learning Mathematical Reasoning with Large
Language Models [75.29595679428105]
本研究では,事前学習損失,教師付きデータ量,拡張データ量が教師付きLDMの推論性能に与える影響について検討する。
複数のモデルからの拒絶サンプルは、LLaMA-7BをGSM8Kの49.3%の精度に押し上げ、監督された微調整(SFT)の精度を35.9%上回る結果となった。
論文 参考訳(メタデータ) (2023-08-03T15:34:01Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。