論文の概要: Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
- arxiv url: http://arxiv.org/abs/2506.15068v1
- Date: Wed, 18 Jun 2025 02:16:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.521749
- Title: Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation
- Title(参考訳): フリーフォーム・ジェネレーションにおけるオープンエンディングR1トレーニングのセマンティック・アウェア・リワード
- Authors: Zongxia Li, Yapei Chang, Yuhang Zhou, Xiyang Wu, Zichao Liang, Yoo Yeon Sung, Jordan Lee Boyd-Graber,
- Abstract要約: GRPOにおけるオープンエンド長文生成評価のためのスコアリングモデルであるPrefBERTを提案する。
PrefBERTは従来のROUGE-LやBERTScoreよりもセマンティックな報酬フィードバックを提供する。
人的評価は、PrefBERTを政策モデルを訓練するための報奨信号として使用すると、人間の嗜好に合った反応が得られます。
- 参考スコア(独自算出の注目度): 3.727285983486079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating open-ended long-form generation is challenging because it is hard to define what clearly separates good from bad outputs. Existing methods often miss key aspects like coherence, style, or relevance, or are biased by pretraining data, making open-ended long-form evaluation an underexplored problem. To address this gap, we propose PrefBERT, a scoring model for evaluating open-ended long-form generation in GRPO and guiding its training with distinct rewards for good and bad outputs. Trained on two response evaluation datasets with diverse long-form styles and Likert-rated quality, PrefBERT effectively supports GRPO by offering better semantic reward feedback than traditional metrics ROUGE-L and BERTScore do. Through comprehensive evaluations, including LLM-as-a-judge, human ratings, and qualitative analysis, we show that PrefBERT, trained on multi-sentence and paragraph-length responses, remains reliable across varied long passages and aligns well with the verifiable rewards GRPO needs. Human evaluations confirm that using PrefBERT as the reward signal to train policy models yields responses better aligned with human preferences than those trained with traditional metrics. Our code is available at https://github.com/zli12321/long_form_rl.
- Abstract(参考訳): アウトプットが良くないことを明確に区別することは難しいため、オープンエンドのロングフォーム生成を評価することは難しい。
既存の手法では、コヒーレンスやスタイル、あるいは関連性といった重要な側面を見逃したり、事前学習データに偏っている場合が多い。
このギャップに対処するため,GRPOにおけるオープンエンド長文生成の評価モデルであるPrefBERTを提案する。
PrefBERTは、様々なロングフォームスタイルとクオリティを持つ2つのレスポンス評価データセットに基づいて、従来のROUGE-LやBERTScoreよりもセマンティックな報酬フィードバックを提供することで、GRPOを効果的にサポートする。
LLM-as-a-judge, 人格評価, 質的分析などの総合的な評価を通じて, 多文・段落応答を訓練したPrefBERTは, 様々な長い通路で信頼性を保ち, GRPOが要求する検証可能な報酬とよく一致していることを示す。
人的評価は、PrefBERTをポリシーモデルをトレーニングする報酬信号として使用すると、従来のメトリクスでトレーニングされたものよりも、人間の好みに合わせた反応が得られます。
私たちのコードはhttps://github.com/zli12321/long_form_rl.orgから入手可能です。
関連論文リスト
- Intra-Trajectory Consistency for Reward Modeling [67.84522106537274]
軌道内整合性正則化を開発し、より高い次トーケン生成確率を持つプロセスがより一貫した報酬を維持することを強制する。
提案した正規化でトレーニングした報酬モデルにより、より優れたDPO整合ポリシーが導出され、より優れたベスト・オブ・N(BON)検証結果が得られることを示す。
論文 参考訳(メタデータ) (2025-06-10T12:59:14Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Reinforced Informativeness Optimization for Long-Form Retrieval-Augmented Generation [77.10390725623125]
LFQA(Long-form Question answering)は、大規模言語モデルに固有の課題を提示する。
RioRAGは、強化情報性最適化を通じて長めのRAGを進化させる新しい強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-05-27T07:34:41Z) - REINFORCE++: An Efficient RLHF Algorithm with Robustness to Both Prompt and Reward Models [8.587685197004097]
REINFORCE++は、バッチの正規化報酬をベースラインとして使用しながら、批判モデルを削除する新しいアプローチである。
プロンプトセットのトランケーションを必要とせずに、様々な報酬モデルに対して堅牢なパフォーマンスを示す。
既存のREINFORCE法と比較して、RLHFとロングチェーン設定の両方において優れた一般化を実現している。
論文 参考訳(メタデータ) (2025-01-04T02:08:06Z) - ReFINE: A Reward-Based Framework for Interpretable and Nuanced Evaluation of Radiology Report Generation [39.542375803362965]
ReFINEは、放射線学レポート生成(R2Gen)に特化して設計された自動評価指標である。
ユーザが指定した基準に従ってレポートをスコアし、詳細なサブスコアを提供し、解釈可能性を高める。
実験では,従来の指標と比較して,人間の判断とReFINEの相関が高められ,モデル選択における優れた性能が示された。
論文 参考訳(メタデータ) (2024-11-26T10:48:55Z) - MaFeRw: Query Rewriting with Multi-Aspect Feedbacks for Retrieval-Augmented Large Language Models [22.50450558103786]
現実世界のRAGシステムでは、現在のクエリは会話コンテキストからの音声楕円とあいまいな参照を含むことが多い。
本稿では,検索プロセスと生成結果の両方からマルチアスペクトフィードバックを統合することにより,RAG性能を向上させる新しいクエリ書き換え手法MaFeRwを提案する。
2つの対話型RAGデータセットの実験結果から、MaFeRwはベースラインよりも優れた生成指標と安定したトレーニングを達成できることが示された。
論文 参考訳(メタデータ) (2024-08-30T07:57:30Z) - ODIN: Disentangled Reward Mitigates Hacking in RLHF [127.35607931337019]
本稿では,人間からの強化学習に現れる課題である,応答長に基づく報酬ハッキングの課題について検討する。
LLMからの十分に整形された冗長な応答は、高いスコアを得るためにLLMや人間の評価者を騙すことがしばしばある。
提案手法は, 報酬と長さの相関をほぼ排除し, 得られた政策を有意なマージンで改善する。
論文 参考訳(メタデータ) (2024-02-11T22:40:12Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。