論文の概要: Online Rubrics Elicitation from Pairwise Comparisons
- arxiv url: http://arxiv.org/abs/2510.07284v1
- Date: Wed, 08 Oct 2025 17:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.671554
- Title: Online Rubrics Elicitation from Pairwise Comparisons
- Title(参考訳): ペアワイズ比較によるオンラインラグビーの省力化
- Authors: MohammadHossein Rezaei, Robert Vacareanu, Zihao Wang, Clinton Wang, Yunzhong He, Afra Feyza Akyürek,
- Abstract要約: InlineRubrics Elicitation (OnlineRubrics)は,オンライン手法で評価基準を動的にキュレートする手法である。
OnlineRubricsは、静的ルーブリックのみによるトレーニングよりも、最大8%の一貫性のある改善を実現している。
- 参考スコア(独自算出の注目度): 22.26163710426898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Rubrics provide a flexible way to train LLMs on open-ended long-form answers where verifiable rewards are not applicable and human preferences provide coarse signals. Prior work shows that reinforcement learning with rubric-based rewards leads to consistent gains in LLM post-training. Most existing approaches rely on rubrics that remain static over the course of training. Such static rubrics, however, are vulnerable to reward-hacking type behaviors and fail to capture emergent desiderata that arise during training. We introduce Online Rubrics Elicitation (OnlineRubrics), a method that dynamically curates evaluation criteria in an online manner through pairwise comparisons of responses from current and reference policies. This online process enables continuous identification and mitigation of errors as training proceeds. Empirically, this approach yields consistent improvements of up to 8% over training exclusively with static rubrics across AlpacaEval, GPQA, ArenaHard as well as the validation sets of expert questions and rubrics. We qualitatively analyze the elicited criteria and identify prominent themes such as transparency, practicality, organization, and reasoning.
- Abstract(参考訳): ルーブリックは、検証可能な報酬が適用されず、人間の好みが粗い信号を提供する、オープンエンドのロングフォームの回答でLSMを訓練する柔軟な方法を提供する。
以前の研究は、強化学習とルーリックベースの報酬がLLMのポストトレーニングにおいて一貫した利益をもたらすことを示している。
既存のアプローチのほとんどは、トレーニングの過程で静的のままのルーブリックに依存しています。
しかし、このような静的ルーリックは報奨型行動に弱いため、トレーニング中に発生する創発的なデシデラタを捕獲することができない。
オンライン・ルーブリック・エミュレーション(OnlineRubrics Elicitation, オンライン・ルーブリックス・エミュレーション)は,現在および参照ポリシーからの応答のペア比較を通じて,オンライン手法で評価基準を動的にキュレートする手法である。
このオンラインプロセスは、トレーニングが進むにつれてエラーの継続的な識別と緩和を可能にする。
経験的に、このアプローチはAlpacaEval、GPQA、ArenaHard、および専門家の質問とルーリックの検証セットでのみ、トレーニングよりも最大8%改善する。
我々は、提案された基準を質的に分析し、透明性、実践性、組織、推論といった顕著なテーマを特定します。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Efficient Online RL Fine Tuning with Offline Pre-trained Policy Only [22.94253602450729]
既存のオンライン強化学習(RL)ファインチューニング手法では、安定性と性能のために、オフラインで事前訓練されたQ-関数によるトレーニングを継続する必要がある。
オフライン事前学習ポリシーのみを用いたオンラインRLファインチューニング手法を提案する。
PORL(Policy-Only Reinforcement Learning Fine-Tuning)を導入し、オンライン段階でQ-関数をスクラッチから迅速に初期化する。
論文 参考訳(メタデータ) (2025-05-22T16:14:08Z) - Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - Random Policy Enables In-Context Reinforcement Learning within Trust Horizons [2.52299400625445]
State-Action Distillation (SAD) は、ランダムポリシーのみによってガイドされる効果的な事前学習データセットを生成する。
SADはオフライン評価では236.3%、オンライン評価では135.2%で最高のベースラインを上回っている。
論文 参考訳(メタデータ) (2024-10-25T21:46:25Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。