論文の概要: Reward Learning through Ranking Mean Squared Error
- arxiv url: http://arxiv.org/abs/2601.09236v1
- Date: Wed, 14 Jan 2026 07:18:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.305197
- Title: Reward Learning through Ranking Mean Squared Error
- Title(参考訳): 平均二乗誤差のランク付けによるリワード学習
- Authors: Chaitanya Kharyal, Calarina Muslimani, Matthew E. Taylor,
- Abstract要約: レーティングに基づくRL(R4)のランク付き回帰学習手法を提案する。
その中核として、R4は、教師が提供する評価を順序的目標として扱う、新しいランク付け平均二乗誤差(rMSE)損失を採用している。
ロボットロコモーションベンチマークにおいて、R4が既存の評価基準と嗜好に基づくRL法と一貫して一致し、性能が向上することが実証された。
- 参考スコア(独自算出の注目度): 9.990878663807717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reward design remains a significant bottleneck in applying reinforcement learning (RL) to real-world problems. A popular alternative is reward learning, where reward functions are inferred from human feedback rather than manually specified. Recent work has proposed learning reward functions from human feedback in the form of ratings, rather than traditional binary preferences, enabling richer and potentially less cognitively demanding supervision. Building on this paradigm, we introduce a new rating-based RL method, Ranked Return Regression for RL (R4). At its core, R4 employs a novel ranking mean squared error (rMSE) loss, which treats teacher-provided ratings as ordinal targets. Our approach learns from a dataset of trajectory-rating pairs, where each trajectory is labeled with a discrete rating (e.g., "bad," "neutral," "good"). At each training step, we sample a set of trajectories, predict their returns, and rank them using a differentiable sorting operator (soft ranks). We then optimize a mean squared error loss between the resulting soft ranks and the teacher's ratings. Unlike prior rating-based approaches, R4 offers formal guarantees: its solution set is provably minimal and complete under mild assumptions. Empirically, using simulated human feedback, we demonstrate that R4 consistently matches or outperforms existing rating and preference-based RL methods on robotic locomotion benchmarks from OpenAI Gym and the DeepMind Control Suite, while requiring significantly less feedback.
- Abstract(参考訳): リワード設計は、実世界の問題に強化学習(RL)を適用する上で、依然として重要なボトルネックとなっている。
報酬学習では、報酬関数は手動で指定するのではなく、人間のフィードバックから推測される。
近年の研究では、従来の二進選好ではなく、人間のフィードバックによる評価の形での学習報酬関数を提案しており、より豊かで認知力の低い監督を可能にしている。
このパラダイムに基づいて、評価に基づくRL手法であるRLのランク付き回帰(R4)を導入する。
その中核として、R4は、教師が提供する評価を順序的目標として扱う、新しいランク付け平均二乗誤差(rMSE)損失を採用している。
提案手法は,各軌道に離散的な評価(例えば,"bad","neutral","good"など)をラベル付けしたトラジェクティブレーティングペアのデータセットから学習する。
各トレーニングステップでは、一連の軌跡をサンプリングし、リターンを予測し、微分可能なソート演算子(ソフトランク)を使用してランク付けする。
次に、得られたソフトランクと教師の格付けの間の平均2乗誤差損失を最適化する。
従来の評価に基づくアプローチとは異なり、R4 は形式的な保証を提供する。
実験では、シミュレーションされた人間のフィードバックを用いて、OpenAI GymとDeepMind Control Suiteのロボットロコモーションベンチマークにおいて、R4が既存の評価基準と嗜好に基づくRL手法と一貫して一致し、性能を向上することを示した。
関連論文リスト
- Off-Policy Corrected Reward Modeling for Reinforcement Learning from Human Feedback [52.1410307583181]
我々は、ヒューマンフィードバックからの強化学習を用いて、複雑な人間の嗜好に従うために言語モデル(LM)を訓練する。
トレーニングが進むにつれて、LMが生成する応答は、報酬モデル(RM)の応答にもはや似ていない。
新しいラベルやサンプルを必要とせず、重み付けによりRMを補正するオフポリティ補正リワードモデリングを提案する。
論文 参考訳(メタデータ) (2025-07-21T11:19:04Z) - SR-Reward: Taking The Path More Traveled [8.818066308133108]
オフラインでのデモンストレーションから報酬関数を直接学習する新しい手法を提案する。
従来の逆強化学習(IRL)とは異なり,本手法は学習者の方針から報酬関数を分離する。
textitSR-Rewardと呼ばれる我々の報酬関数は、後継表現(SR)を利用して、実証ポリシーと遷移ダイナミクスの下で期待される将来の状態の訪問に基づいて状態をエンコードする。
論文 参考訳(メタデータ) (2025-01-04T16:21:10Z) - ARES: Alternating Reinforcement Learning and Supervised Fine-Tuning for Enhanced Multi-Modal Chain-of-Thought Reasoning Through Diverse AI Feedback [13.154512864498912]
強化学習(RL)と教師付きファインチューニング(SFT)を交互に行う2段階アルゴリズムARESを提案する。
第一に、我々は教師に、各文が問題の解決にどれだけ貢献するかを、CoT(Chain-of-Thought)で得点するように要求する。
次に,教師にRL後の誤った推論の修正を依頼する。補正フィードバックにより,SFTによるRL微調整モデルを安定化する。
論文 参考訳(メタデータ) (2024-06-25T07:20:11Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Debiasing Meta-Gradient Reinforcement Learning by Learning the Outer
Value Function [69.59204851882643]
メタグラディエントRLアプローチのメタグラディエントにおけるバイアスを同定する。
このバイアスは、メタ学習された割引係数を用いてトレーニングされた批評家を用いて、外的目的の利点を推定することに由来する。
メタ学習型割引因子は、通常、外側の目的で使用されるものよりも低いため、結果として生じるバイアスは、メタ学習型が筋電図のポリシーを好む原因となる。
論文 参考訳(メタデータ) (2022-11-19T00:59:20Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。