論文の概要: ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training
- arxiv url: http://arxiv.org/abs/2604.07484v1
- Date: Wed, 08 Apr 2026 18:25:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.504265
- Title: ConsistRM: Improving Generative Reward Models via Consistency-Aware Self-Training
- Title(参考訳): ConsistRM: Consistency-Aware Self-Trainingによる生成的リワードモデルの改善
- Authors: Yu Liang, Liangxin Liu, Longzheng Wang, Yan Wang, Yueyang Zhang, Long Xia, Zhiyuan Sun, Daiting Shi,
- Abstract要約: ジェネレーティブ報酬モデル(GRM)は、大規模言語モデル(LLM)と人間の嗜好を整合させるための有望なアプローチとして登場した。
我々は,人間のアノテーションを使わずに,効果的かつ安定したGRMトレーニングを可能にする自己学習フレームワークであるConsistRMを提案する。
- 参考スコア(独自算出の注目度): 11.579744186304895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative reward models (GRMs) have emerged as a promising approach for aligning Large Language Models (LLMs) with human preferences by offering greater representational capacity and flexibility than traditional scalar reward models. However, GRMs face two major challenges: reliance on costly human-annotated data restricts scalability, and self-training approaches often suffer from instability and vulnerability to reward hacking. To address these issues, we propose ConsistRM, a self-training framework that enables effective and stable GRM training without human annotations. ConsistRM incorporates the Consistency-Aware Answer Reward, which produces reliable pseudo-labels with temporal consistency, thereby providing more stable model optimization. Moreover, the Consistency-Aware Critique Reward is introduced to assess semantic consistency across multiple critiques and allocates fine-grained and differentiated rewards. Experiments on five benchmark datasets across four base models demonstrate that ConsistRM outperforms vanilla Reinforcement Fine-Tuning (RFT) by an average of 1.5%. Further analysis shows that ConsistRM enhances output consistency and mitigates position bias caused by input order, highlighting the effectiveness of consistency-aware rewards in improving GRMs.
- Abstract(参考訳): ジェネレーティブ報酬モデル(GRM)は、従来のスカラー報酬モデルよりも表現能力と柔軟性を提供することにより、大規模言語モデル(LLM)を人間の好みに合わせるための有望なアプローチとして登場した。
しかし、GRMは2つの大きな課題に直面している。コストのかかる人手によるデータへの依存はスケーラビリティを制限し、セルフトレーニングのアプローチはハッキングに報いる不安定性と脆弱性に悩まされることが多い。
これらの課題に対処するために,人間のアノテーションを使わずに,効果的かつ安定したGRMトレーニングを可能にする自己学習フレームワークであるConsistRMを提案する。
ConsistRMにはConsistency-Aware Answer Rewardが組み込まれている。
さらに、一貫性を意識した批判リワード(Consistency-Aware Critique Reward)を導入し、複数の批判にまたがる意味的一貫性を評価し、きめ細かい報酬と区別された報酬を割り当てる。
4つのベースモデルにわたる5つのベンチマークデータセットの実験は、ConsistRMがバニラ強化細調整(RFT)を平均1.5%上回っていることを示している。
さらに分析した結果、ConsistRMは出力の整合性を高め、入力順序による位置バイアスを緩和し、GRMの改善における整合性を考慮した報酬の有効性を強調した。
関連論文リスト
- ReflectRM: Boosting Generative Reward Models via Self-Reflection within a Unified Judgment Framework [12.57107352208971]
ジェネレーティブ・リワード・モデル(GRM)は優れたパラダイムとして登場している。
我々は自己回帰を利用して分析品質を評価する新しいGRMであるReflectRMを提案する。
本研究では,Qwen3-4Bで平均精度+3.7を達成することにより,ReflectRMの性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2026-04-08T18:46:12Z) - CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling [61.75914342638658]
CDRRM(Contrast-Driven Reward Model)は、高品質なルーリック生成と優先判断のためのフレームワークである。
この作業は、報酬モデリングのためのスケーラブルで解釈可能で、データ効率のよいパスを提供する。
論文 参考訳(メタデータ) (2026-03-09T07:15:23Z) - R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。
我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文 参考訳(メタデータ) (2026-02-06T15:17:11Z) - Reward Modeling from Natural Language Human Feedback [77.75758630455357]
RLVR(Reinforcement Learning with Verifiable reward)は、GAM(Generative Reward Models)のトレーニングにおいて、プライオリティデータに対する強化学習が主流となっている。
本稿では,このような二項分類タスクにより,音質批判を伴わない正しい結果の推測が可能であることを実証する。
本稿では、自然言語フィードバックを利用してプロセス報酬信号を得る自然言語ヒューマンフィードバック(RM-NLHF)からのリワードモデリングを提案する。
論文 参考訳(メタデータ) (2026-01-12T09:23:43Z) - CALM Before the STORM: Unlocking Native Reasoning for Optimization Modeling [60.55856973678002]
大規模推論モデル (LRM) は、複雑な多段階推論において強力な機能を示した。
既存のドメイン適応手法は、元々は命令調整モデル用に設計されていたが、現代のLEMの高度な推論パターンをうまく利用できなかった。
我々は、最適化モデリングタスクのためのネイティブ推論モード内でのLEMを段階的に洗練するフレームワークである textbfCALM を提案する。
論文 参考訳(メタデータ) (2025-10-05T13:38:31Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - Energy-Based Reward Models for Robust Language Model Alignment [9.843359827321194]
省エネルギーリワードモデル(EBRM)について紹介する。
EBRMは報酬分布を明示的にモデル化し、人間の好みの不確実性を捉え、ノイズや不一致のアノテーションの影響を緩和する。
実験的な評価は、堅牢性と一般化の大幅な改善を示し、安全クリティカルなアライメントタスクの5.97%を達成している。
論文 参考訳(メタデータ) (2025-04-17T17:47:15Z) - Towards Hierarchical Multi-Step Reward Models for Enhanced Reasoning in Large Language Models [46.75272311751018]
階層的リワードモデルと呼ばれる新しい報酬モデル手法を提案する。
個々の推論ステップと連続推論ステップを、きめ細かいレベルと粗いレベルの両方で評価する。
これは多段階推論コヒーレンスの評価に優れており、特に欠陥のあるステップが後に自己回帰によって修正される場合である。
論文 参考訳(メタデータ) (2025-03-16T15:18:40Z) - Uncertainty-aware Reward Model: Teaching Reward Models to Know What is Unknown [20.753374166695494]
本稿では,Uncertainty-aware Reward Model (URM)とそのアンサンブル変種URMEを紹介する。
URMは、不整合な人間の嗜好属性の分布をモデル化することにより、アレタリック不確かさを捉えるために確率的値ヘッドを用いる。
URMEはさらに、アンサンブル内の個々のURM間の不一致を調べて不確実性を定量化し、信頼できない評価の特定を可能にする。
論文 参考訳(メタデータ) (2024-10-01T16:29:59Z) - Semi-Supervised Reward Modeling via Iterative Self-Training [52.48668920483908]
本稿では,未ラベルデータを用いたRMトレーニングを強化する手法であるSemi-Supervised Reward Modeling (SSRM)を提案する。
SSRMは、追加のラベリングコストを発生させることなく、報酬モデルを大幅に改善することを示した。
全体として、SSRMは、人間が注釈付けした大量のデータへの依存を大幅に減らし、効果的な報酬モデルのトレーニングに要する全体的なコストと時間を削減する。
論文 参考訳(メタデータ) (2024-09-10T22:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。