論文の概要: Precision over Diversity: High-Precision Reward Generalizes to Robust Instruction Following
- arxiv url: http://arxiv.org/abs/2601.04954v2
- Date: Tue, 13 Jan 2026 16:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 14:06:39.23974
- Title: Precision over Diversity: High-Precision Reward Generalizes to Robust Instruction Following
- Title(参考訳): 多様性の高精度化:高精度リワードがロバスト指導に一般化する
- Authors: Yirong Zeng, Yufei Liu, Xiao Ding, Yutai Hou, Yuxian Wang, Haonan Song, Wu Ning, Dandan Tu, Qixun Zhang, Bibo Cai, Yuxiang He, Ting Liu,
- Abstract要約: ハードリミテッドな制約でトレーニングされたモデルは、混合データセットでトレーニングされたモデルよりも一貫して優れています。
実験により、報酬の精度は、制約の多様性よりもむしろ、効果的なアライメントの原動力であることが判明した。
本稿では,報酬精度を優先する簡易かつ効果的なデータ中心精錬戦略を提案する。
- 参考スコア(独自算出の注目度): 28.896629356988736
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: A central belief in scaling reinforcement learning with verifiable rewards for instruction following (IF) tasks is that, a diverse mixture of verifiable hard and unverifiable soft constraints is essential for generalizing to unseen instructions. In this work, we challenge this prevailing consensus through a systematic empirical investigation. Counter-intuitively, we find that models trained on hard-only constraints consistently outperform those trained on mixed datasets. Extensive experiments reveal that reward precision, rather than constraint diversity, is the primary driver of effective alignment. The LLM judge suffers from a low recall rate in detecting false response, which leads to severe reward hacking, thereby undermining the benefits of diversity. Furthermore, analysis of the attention mechanism reveals that high-precision rewards develop a transferable meta-skill for IF. Motivated by these insights, we propose a simple yet effective data-centric refinement strategy that prioritizes reward precision. Evaluated on five benchmarks, our approach outperforms competitive baselines by 13.4\% in performance while achieving a 58\% reduction in training time, maintaining strong generalization beyond instruction following. Our findings advocate for a paradigm shift: moving away from the indiscriminate pursuit of data diversity toward high-precision rewards.
- Abstract(参考訳): IFタスクに続く命令に対する検証可能な報酬を伴う強化学習のスケーリングに対する中心的な信念は、検証可能なハード制約と検証不可能なソフト制約の多種多様さが、目に見えない命令に一般化するために欠かせないことである。
本研究は、系統的な実証的研究を通じて、この一般的なコンセンサスに挑戦する。
反対に、ハードリミテッドな制約でトレーニングされたモデルは、混合データセットでトレーニングされたモデルよりも一貫して優れています。
広範囲な実験により、報酬の精度は、制約の多様性よりもむしろ、効果的なアライメントの原動力であることが判明した。
LLM判事は、誤応答の検出において低いリコール率に悩まされ、深刻な報酬のハッキングを引き起こし、多様性の利点を損なう。
さらに、注意機構の解析により、高精度な報酬がIFのための伝達可能なメタスキルを発達させることが明らかとなった。
これらの知見に触発されて、報酬の精度を優先する、シンプルで効果的なデータ中心の洗練戦略を提案する。
提案手法は,5つのベンチマークで評価し,学習時間を58倍に抑えながら,性能が13.4倍に向上し,その後の指導を超越した強力な一般化を維持した。
我々の発見は、データ多様性の無差別な追求から、高精度な報酬への移行というパラダイムシフトを提唱している。
関連論文リスト
- ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - Confidence as a Reward: Transforming LLMs into Reward Models [54.98336080630691]
Confidence-as-a-Reward (CRew) は、モデルの最終回答に対するトークンレベルの信頼を報酬のプロキシとして利用する、トレーニング不要の手法である。
CRew は MATH500 および RewardMATH ベンチマークにおいて,既存のトレーニングフリー報酬手法よりも優れていることを示す。
本稿では,信頼度スコアと正当性信号を組み合わせた選好データを構成する訓練戦略であるCRew-DPOを提案する。
論文 参考訳(メタデータ) (2025-10-15T12:51:47Z) - Enhancing Robust Fairness via Confusional Spectral Regularization [6.041034366572273]
PAC-Bayesian フレームワーク内の最悪のクラスにおけるロバストなエラーに対して、ロバストな一般化を導出する。
本稿では,最低級のロバストな精度を向上し,ロバストな公正性を向上する新たな正則化手法を提案する。
論文 参考訳(メタデータ) (2025-01-22T23:32:19Z) - Unilaterally Aggregated Contrastive Learning with Hierarchical
Augmentation for Anomaly Detection [64.50126371767476]
階層的拡張(UniCon-HA)を用いた一方的集約型コントラスト学習を提案する。
我々は、教師付きおよび教師なしの対照的な損失を通じて、インレーヤの濃度と仮想外れ値の分散を明示的に奨励する。
本手法は,ラベルなし1クラス,ラベルなしマルチクラス,ラベル付きマルチクラスを含む3つのAD設定で評価される。
論文 参考訳(メタデータ) (2023-08-20T04:01:50Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z) - Robust Pre-Training by Adversarial Contrastive Learning [120.33706897927391]
近年の研究では、敵の訓練と統合されると、自己監督型事前訓練が最先端の堅牢性につながることが示されている。
我々は,データ強化と対向的摂動の両面に整合した学習表現により,ロバストネスを意識した自己指導型事前学習を改善する。
論文 参考訳(メタデータ) (2020-10-26T04:44:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。