論文の概要: WildReward: Learning Reward Models from In-the-Wild Human Interactions
- arxiv url: http://arxiv.org/abs/2602.08829v1
- Date: Mon, 09 Feb 2026 16:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.344525
- Title: WildReward: Learning Reward Models from In-the-Wild Human Interactions
- Title(参考訳): WildReward: インザワイルドヒューマンインタラクションからリワードモデルを学ぶ
- Authors: Hao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Lei Hou, Juanzi Li,
- Abstract要約: In-the-wildインタラクションは暗黙の報酬信号の豊富な源として現れている。
インタラクションソースとしてWildChatを採用し,信頼性の高いフィードバックを抽出するためのパイプラインを提案する。
実験では、WildRewardは従来の報酬モデルと比較して、同等またはそれ以上のパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 54.09735863126537
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward models (RMs) are crucial for the training of large language models (LLMs), yet they typically rely on large-scale human-annotated preference pairs. With the widespread deployment of LLMs, in-the-wild interactions have emerged as a rich source of implicit reward signals. This raises the question: Can we develop reward models directly from in-the-wild interactions? In this work, we explore this possibility by adopting WildChat as an interaction source and proposing a pipeline to extract reliable human feedback, yielding 186k high-quality instances for training WildReward via ordinal regression directly on user feedback without preference pairs. Extensive experiments demonstrate that WildReward achieves comparable or even superior performance compared to conventional reward models, with improved calibration and cross-sample consistency. We also observe that WildReward benefits directly from user diversity, where more users yield stronger reward models. Finally, we apply WildReward to online DPO training and observe significant improvements across various tasks. Code and data are released at https://github.com/THU-KEG/WildReward.
- Abstract(参考訳): リワードモデル(RM)は、大きな言語モデル(LLM)のトレーニングには不可欠であるが、一般的には大規模な人間アノテーションの好みペアに依存している。
LLMが広範に展開されるにつれ、暗黙の報酬信号の豊富な源として、Wild内相互作用が出現している。
このことは疑問を提起する: インザワイルドインタラクションから直接報酬モデルを開発することができるか?
本研究では、WildChatをインタラクションソースとして採用し、信頼性の高いフィードバックを抽出するためのパイプラインを提案することにより、WildRewardのトレーニング用の高品質なインスタンスを、好みのペアを使わずにユーザフィードバックに直接回帰することで、この可能性を探究する。
大規模な実験により、WildRewardは従来の報酬モデルと同等またはそれ以上のパフォーマンスを達成し、キャリブレーションとクロスサンプル一貫性を改善した。
また、WildRewardはユーザーの多様性から直接恩恵を受けており、より多くのユーザーがより強力な報酬モデルを得ることができることも観察しています。
最後に、WildRewardをオンラインDPOトレーニングに適用し、さまざまなタスクにわたる大幅な改善を観察する。
コードとデータはhttps://github.com/THU-KEG/WildReward.comで公開されている。
関連論文リスト
- Reward Modeling from Natural Language Human Feedback [77.75758630455357]
RLVR(Reinforcement Learning with Verifiable reward)は、GAM(Generative Reward Models)のトレーニングにおいて、プライオリティデータに対する強化学習が主流となっている。
本稿では,このような二項分類タスクにより,音質批判を伴わない正しい結果の推測が可能であることを実証する。
本稿では、自然言語フィードバックを利用してプロセス報酬信号を得る自然言語ヒューマンフィードバック(RM-NLHF)からのリワードモデリングを提案する。
論文 参考訳(メタデータ) (2026-01-12T09:23:43Z) - RLBFF: Binary Flexible Feedback to bridge between Human Feedback & Verifiable Rewards [29.53129965767002]
バイナリフレキシブルフィードバック(RLBFF)を用いた強化学習を提案する。
RLBFFは、人間主導の好みの汎用性とルールベースの検証の精度を組み合わせる。
この方法で訓練されたReward Modelsは、データにマッチするとBradley-Terryモデルより優れていることを示す。
論文 参考訳(メタデータ) (2025-09-25T16:19:06Z) - Residual Reward Models for Preference-based Reinforcement Learning [11.797520525358564]
優先度に基づく強化学習(PbRL)は、報酬信号の特定が難しい環境で、高性能なポリシーを学習する方法を提供する。
PbRLは報酬モデルでのトレーニングを必要とするため、収束速度が遅い。
本稿では,Residual Reward Model (RRM) を用いた事前知識の有効活用手法を提案する。
論文 参考訳(メタデータ) (2025-07-01T09:43:57Z) - Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems [54.4392552373835]
リワードモデル(RM)は、大規模言語モデル(LLM)のトレーニングと推論時間のスケールアップに不可欠である
本稿では,報酬モデルと検証可能な正当性信号を組み合わせた報酬システムであるエージェント報酬モデルを提案する。
我々は,既存の報奨モデルベンチマークと実世界の下流タスクのベスト・オブ・n検索に関する総合的な実験を行う。
論文 参考訳(メタデータ) (2025-02-26T17:19:12Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - RewardBench: Evaluating Reward Models for Language Modeling [100.28366840977966]
本稿では,報酬モデル評価のためのベンチマークデータセットとコードベースであるRewardBenchを紹介する。
データセットは、チャット、推論、安全性にまたがる、プロンプト・チョーゼン・リジェクトされたトリオのコレクションである。
RewardBenchのリーダーボードでは、様々な方法で訓練された報酬モデルを評価する。
論文 参考訳(メタデータ) (2024-03-20T17:49:54Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - RewardsOfSum: Exploring Reinforcement Learning Rewards for Summarisation [7.0471949371778795]
本稿では,抽象的な要約作業に対する2つの報酬関数を提案する。
最初の関数はRwB-Hingeと呼ばれ、勾配更新のサンプルを動的に選択する。
第2の機能はRISKと呼ばれ、強力な候補者の小さなプールを利用して報酬を知らせる。
論文 参考訳(メタデータ) (2021-06-08T03:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。