論文の概要: Step Rejection Fine-Tuning: A Practical Distillation Recipe
- arxiv url: http://arxiv.org/abs/2605.10674v1
- Date: Mon, 11 May 2026 14:55:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.914144
- Title: Step Rejection Fine-Tuning: A Practical Distillation Recipe
- Title(参考訳): ステップリジェクションファインチューニング : 実用的蒸留法
- Authors: Igor Slinko, Ilia Zavidnyi, Egor Bogomolov, Yaroslav Zharov,
- Abstract要約: RFT(Rejection Fine-Tuning)は、LDMエージェントを訓練するための標準的な方法である。
本稿では,未解決軌道を利用するための実用的な方法として,ステップリジェクションファインチューニング(SRFT)を提案する。
- 参考スコア(独自算出の注目度): 2.770175193159501
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rejection Fine-Tuning (RFT) is a standard method for training LLM agents, where unsuccessful trajectories are discarded from the training set. In the context of SWE-bench tasks, this corresponds to filtering out runs where the submitted patch does not pass the tests. However, this approach discards unresolved trajectories, even though they form a large portion of all trajectories for hard tasks and even then may be partially correct. In this work, we propose Step Rejection Fine-Tuning (SRFT) - a practical way to leverage these unresolved trajectories. For this, we employ a critic LLM to assess the correctness of each step in a trajectory. Consequently, during training, we mask the loss for erroneous steps while retaining them in the context window. This way we ensure the model learns to recover from errors without reproducing them. Evaluation on SWE-bench Verified shows that while RFT improves the resolution rate by 2.4% by excluding unresolved trajectories, SRFT improves it by 3.7% by filtering them instead of discarding completely, reaching the total resolution rate of 32.2%.
- Abstract(参考訳): リジェクションファインチューニング(Rejection Fine-Tuning, RFT)は、LPMエージェントを訓練するための標準的な方法であり、訓練セットから軌道を逸脱する。
SWE-benchタスクのコンテキストでは、これは、提出されたパッチがテストに合格しない実行をフィルタリングすることに対応する。
しかし、このアプローチは、ハードタスクのために全ての軌道の大部分を形成したとしても、未解決の軌道を破棄する。
本研究では,これらの未解決軌道を利用する実用的な方法として,ステップリジェクションファインチューニング(SRFT)を提案する。
そこで我々は,各ステップの軌道における正当性を評価するために,批評家のLSMを用いる。
その結果、トレーニング中は、コンテキストウィンドウに保持しながら、誤ったステップの損失を隠蔽する。
このようにして、モデルが再生成することなくエラーから回復することを確実にします。
SWE-bench Verifiedの評価によると、RFTは未解決の軌道を除外して分解率を2.4%改善するが、SRFTは完全に破棄するのではなくろ過することで3.7%改善し、総分解率32.2%に達した。
関連論文リスト
- Knowing but Not Correcting: Routine Task Requests Suppress Factual Correction in LLMs [26.062372963777452]
LLMは、独立して提示された時に確実に偽のクレームを訂正するが、同じクレームがタスク指向のリクエストに埋め込まれている場合、そのクレームは正しいというよりも、従うことが多い。
我々は、この障害モードの誤り訂正を抑え、300の偽の前提のベンチマークを構築し、8つのモデルで体系的に評価する。
抑制率は19%から90%で、4つのモデルが80%を超え、修正抑制が一般的で深刻な現象として確立された。
論文 参考訳(メタデータ) (2026-05-07T10:04:39Z) - SOAR: Self-Correction for Optimal Alignment and Refinement in Diffusion Models [48.335262141752715]
拡散モデルのための後トレーニングパイプラインには、キュレートされたデータに対する教師付き微調整(SFT)と報酬モデルによる強化学習(RL)の2段階がある。
本稿では,このギャップを埋めるバイアス補正ポストトレーニング法であるSOAR(Self-Correction for Optimal Alignment and Refinement)を提案する。
オンライン政治であり、報酬なしであり、クレジット割り当ての問題なく、時間ごとの密集した監督を提供する。
論文 参考訳(メタデータ) (2026-04-14T11:45:15Z) - InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning [32.274434679047395]
アウトカム・リワード強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上に有効であることが証明された。
標準RLは最終回答のレベルにのみクレジットを割り当て、結果が正しくない場合にすべての推論トレースを罰する。
Invention Training (InT) は、モデルが独自の推論トレースに基づいてきめ細かいクレジット割り当てを行う訓練パラダイムである。
論文 参考訳(メタデータ) (2026-01-20T18:15:38Z) - FlowSteer: Guiding Few-Step Image Synthesis with Authentic Trajectories [82.90132015584359]
ReFlowはフローマッチングと理論的に整合性があるが、現実的なシナリオでは最適ではない。
本研究では,ReFlowをベースとした蒸留手法であるFlowSteerを提案する。
論文 参考訳(メタデータ) (2025-11-24T07:13:23Z) - Train for Truth, Keep the Skills: Binary Retrieval-Augmented Reward Mitigates Hallucinations [103.16279860448874]
新たな二分探索強化報酬(RAR)を用いたオンライン強化学習手法を提案する。
オープンエンド世代では、バイナリRARは幻覚率を39.3%減少させる。
短い形式の質問応答では、モデルは、パラメトリック知識の不足に直面した時に、戦略的に"I don't know"を出力して、控えめに学習する。
論文 参考訳(メタデータ) (2025-10-20T16:45:43Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。