Fugu-MT 論文翻訳(概要): Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks

論文の概要: Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks

arxiv url: http://arxiv.org/abs/2602.05125v1
Date: Wed, 04 Feb 2026 23:16:09 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-06 18:49:08.665241
Title: Rethinking Rubric Generation for Improving LLM Judge and Reward Modeling for Open-ended Tasks
Title（参考訳）: オープンエンドタスクにおけるLLM判定とリワードモデリングの改善のためのルブリック生成の再考
Authors: William F. Shen, Xinchi Qiu, Chenxi Whitehouse, Lisa Alazraki, Shashwat Goel, Francesco Barbieri, Timon Willi, Akhil Mathur, Ilias Leontiadis,
Abstract要約: 本稿では,分解フィルタサイクル上に構築された潤滑精製の原理的フレームワークRDを提案する。 RRDは粗いルブリックをきめ細かな識別基準に分解し、カバー範囲を広げ、応答間の分離を鋭くする。評価とトレーニングの両方で、大きく、一貫した利益をもたらします。
参考スコア（独自算出の注目度）: 17.117706938140078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recently, rubrics have been used to guide LLM judges in capturing subjective, nuanced, multi-dimensional human preferences, and have been extended from evaluation to reward signals for reinforcement fine-tuning (RFT). However, rubric generation remains hard to control: rubrics often lack coverage, conflate dimensions, misalign preference direction, and contain redundant or highly correlated criteria, degrading judge accuracy and producing suboptimal rewards during RFT. We propose RRD, a principled framework for rubric refinement built on a recursive decompose-filter cycle. RRD decomposes coarse rubrics into fine-grained, discriminative criteria, expanding coverage while sharpening separation between responses. A complementary filtering mechanism removes misaligned and redundant rubrics, and a correlation-aware weighting scheme prevents over-representing highly correlated criteria, yielding rubric sets that are informative, comprehensive, and non-redundant. Empirically, RRD delivers large, consistent gains across both evaluation and training: it improves preference-judgment accuracy on JudgeBench and PPE for both GPT-4o and Llama3.1-405B judges, achieving top performance in all settings with up to +17.7 points on JudgeBench. When used as the reward source for RFT on WildChat, it yields substantially stronger and more stable learning signals, boosting reward by up to 160% (Qwen3-4B) and 60% (Llama3.1-8B) versus 10-20% for prior rubric baselines, with gains that transfer to HealthBench-Hard and BiGGen Bench. Overall, RRD establishes recursive rubric refinement as a scalable and interpretable foundation for LLM judging and reward modeling in open-ended domains.
Abstract（参考訳）: 近年,LLM審査員が主観的,ニュアンス的,多次元的な人間の嗜好を捉え,評価から報酬信号へと拡張され,強化微調整(RFT)が進められている。しかし、ルーブリック生成は制御し難いままであり、しばしばカバーの欠如、寸法の強調、選好方向の誤認、冗長または高相関の基準を含むこと、判断精度の低下、RFT中の準最適報酬の生成である。本稿では,再帰的分解フィルタサイクル上に構築された潤滑精製の原理的フレームワークRDを提案する。 RRDは粗いルブリックをきめ細かな識別基準に分解し、カバー範囲を拡大し、応答間の分離を鋭くする。相補的なフィルタリング機構は、不整合および冗長なルーリックを除去し、相関対応重み付け方式は、情報的で包括的で非冗長なルーリック集合を出力し、高相関な基準を過剰に表現するのを防ぐ。 GPT-4oとLlama3.1-405Bの判定において、ジャッジベンチとPPEの優先判定精度を改善し、ジャッジベンチの最大+17.7ポイントで全ての設定において最高性能を達成する。 WildChat上でRTTの報酬源として使用すると、より強く安定した学習信号が得られ、報酬は160%(Qwen3-4B)、60%(Llama3.1-8B)、以前のルーリックベースラインは10-20%、HealthBench-HardとBiGGen Benchに転送される。全体としてRDDは、オープンエンドドメインにおけるLLM判定と報酬モデリングのためのスケーラブルで解釈可能な基盤として再帰的ルーリック精製を確立している。

関連論文リスト

R-Align: Enhancing Generative Reward Models through Rationale-Centric Meta-Judging [69.96389360650072]
解析精度は, 標準ラベルの精度を超えて, 下流RLHFの結果を高い精度で予測できることが示される。我々は,金の判断でトレーニングを増強し,合理的アライメントを明示的に監督するR-Alignを提案する。
論文参考訳（メタデータ） (2026-02-06T15:17:11Z)
From Absolute to Relative: Rethinking Reward Shaping in Group-Based Reinforcement Learning [7.6602542594279335]
本稿では,報酬形成を絶対得点から相対ランクへシフトさせるために,相対報酬を用いた強化学習を提案する。 RLRRは、推論ベンチマークやオープン・エンド・ジェネレーションタスクにおいて、標準グループベースベースラインよりも一貫した性能向上をもたらすことを示す。
論文参考訳（メタデータ） (2026-01-30T15:07:06Z)
Outcome-Grounded Advantage Reshaping for Fine-Grained Credit Assignment in Mathematical Reasoning [60.00161035836637]
グループ相対政策最適化は、推論タスクのための有望な批判のない強化学習パラダイムとして登場した。我々は,各トークンがモデルの最終回答にどの程度影響するかに基づいて,利益を再分配する,きめ細かい信用割当機構であるOutcome-grounded Advantage Reshaping (OAR)を紹介した。 OAR-Gは計算オーバーヘッドを無視して同等のゲインを達成し、どちらも強力なGRPOベースラインをはるかに上回っている。
論文参考訳（メタデータ） (2026-01-12T10:48:02Z)
ArenaRL: Scaling RL for Open-Ended Agents via Tournament-based Relative Ranking [84.07076200941474]
ArenaRLは、ポイントワイドスカラースコアからグループ内相対ランクにシフトする強化学習パラダイムである。我々は,グループ内対角アリーナを構築し,安定した有利な信号を得るためのトーナメントベースのランキングスキームを考案する。実験により、ArenaRLは標準のRLベースラインを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2026-01-10T08:43:07Z)
Re-Rankers as Relevance Judges [65.37611299805856]
再ランカ・アズ・レバレンス・ジャッジ設定で再ランカを再現する。 TREC-DL 2019〜2023では,220Mから32Bの3家族から8人の再ランカを対象に実験を行い,再ランカに基づく審査員による評価バイアスを分析した。
論文参考訳（メタデータ） (2026-01-08T00:02:59Z)
Rethinking Reasoning in Document Ranking: Why Chain-of-Thought Falls Short [36.93384080571354]
文書の再ランク付けは情報検索(IR)における重要な要素である本研究は, ポイントワイド設定とリストワイド設定の両方にまたがって, 推論に関する最初の体系的な研究である。
論文参考訳（メタデータ） (2025-10-10T03:59:17Z)
Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains [9.917318870162365]
Reinforcement Learning with Verifiable Rewards (RLVR) は、数学やコーディングのような明確な正当性信号を持つ複雑な推論タスクに有効であることが証明されている。ラグビーは近年、そのような判断を捉えるために評価ベンチマークで使用されているが、オンラインのポストトレーニングの報奨信号としての可能性はまだ未定である。本稿では,RLVRを検証可能な領域を超えて,ルーブリックフィードバックを用いて拡張するオンライン強化学習手法であるRaRを紹介する。
論文参考訳（メタデータ） (2025-07-23T17:57:55Z)
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。 SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文参考訳（メタデータ） (2025-06-19T08:49:13Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
RAG-RewardBench: Benchmarking Reward Models in Retrieval Augmented Generation for Preference Alignment [18.491114307921848]
RAG設定におけるRM評価のための最初のベンチマークであるRAG-RewardBenchを提案する。まず、RMを評価するために、RAG固有の4つの決定的かつ挑戦的なシナリオを設計する。次に、データソースの多様性を高めるために、18個のRAGサブセット、6個のレトリバー、24個のALMを組み込んだ。最後に、LLM-as-a-judgeアプローチを採用し、好みのアノテーション効率と有効性を改善する。
論文参考訳（メタデータ） (2024-12-18T11:28:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。