論文の概要: Multi-Task Reward Learning from Human Ratings
- arxiv url: http://arxiv.org/abs/2506.09183v2
- Date: Tue, 17 Jun 2025 19:12:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 16:34:05.48632
- Title: Multi-Task Reward Learning from Human Ratings
- Title(参考訳): ヒューマンレーティングからのマルチタスク・リワード学習
- Authors: Mingkang Wu, Devin White, Evelyn Rose, Vernon Lawhern, Nicholas R Waytowich, Yongcan Cao,
- Abstract要約: 複数のタスクを共同で検討し、人間の意思決定を模倣する新しい強化学習法を提案する。
報酬のない環境における人間の評価を活用し、報酬関数を推論し、分類モデルと回帰モデルの両方の貢献のバランスをとる学習可能な重みを導入します。
その結果,提案手法は既存のレーティングに基づくRL手法よりも常に優れており,場合によっては従来のRL手法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.6133809033337525
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) has become a key factor in aligning model behavior with users' goals. However, while humans integrate multiple strategies when making decisions, current RLHF approaches often simplify this process by modeling human reasoning through isolated tasks such as classification or regression. In this paper, we propose a novel reinforcement learning (RL) method that mimics human decision-making by jointly considering multiple tasks. Specifically, we leverage human ratings in reward-free environments to infer a reward function, introducing learnable weights that balance the contributions of both classification and regression models. This design captures the inherent uncertainty in human decision-making and allows the model to adaptively emphasize different strategies. We conduct several experiments using synthetic human ratings to validate the effectiveness of the proposed approach. Results show that our method consistently outperforms existing rating-based RL methods, and in some cases, even surpasses traditional RL approaches.
- Abstract(参考訳): 人間のフィードバックからの強化学習(RLHF)は、モデルの振る舞いをユーザの目標と整合させる上で重要な要素となっている。
しかしながら、人間は意思決定を行う際に複数の戦略を統合するが、現在のRLHFアプローチは、分類や回帰のような独立したタスクを通じて人間の推論をモデル化することによって、このプロセスを単純化することが多い。
本稿では,複数タスクを共同で検討し,人間の意思決定を模倣する新しい強化学習手法を提案する。
具体的には、報酬のない環境における人間の評価を活用し、報酬関数を推論し、分類モデルと回帰モデルの両方の寄与のバランスをとる学習可能な重みを導入する。
この設計は、人間の意思決定に固有の不確実性を捉え、モデルが異なる戦略を適応的に強調できるようにする。
提案手法の有効性を検証するために, 人工人体評価を用いていくつかの実験を行った。
その結果,提案手法は既存のレーティングに基づくRL手法よりも常に優れており,場合によっては従来のRL手法よりも優れていた。
関連論文リスト
- Enhancing Rating-Based Reinforcement Learning to Effectively Leverage Feedback from Large Vision-Language Models [22.10168313140081]
本稿では,AIフィードバックから報酬関数を学習する評価に基づく強化学習手法ERL-VLMを紹介する。
ERL-VLMは、個々の軌道の絶対評価のために大きな視覚言語モデルをクエリし、より表現力のあるフィードバックを可能にする。
ERL-VLM は既存の VLM ベースの報酬生成手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2025-06-15T12:05:08Z) - RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs [49.386699863989335]
大きな言語モデル(LLM)を訓練し、人間の効果的なアシスタントとして機能させるには、慎重に検討する必要がある。
有望なアプローチとして、人間からのフィードバック(RLHF)からの強化学習がある。
本稿では、強化学習原理のレンズを通してRLHFを分析し、その基礎を理解する。
論文 参考訳(メタデータ) (2024-04-12T15:54:15Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - The History and Risks of Reinforcement Learning and Human Feedback [0.16843915833103415]
人間からのフィードバックからの強化学習(RLHF)は、大規模言語モデルをより使いやすく、より効果的にするための強力なテクニックとして登場した。
RLHFプロセスの中核は、最適化のための報酬関数として機能する人間の好みのモデルのトレーニングと利用である。
RLHF報酬モデルはしばしばパフォーマンスの達成の中心として言及されるが、能力、評価、トレーニング方法、オープンソースのモデルに関する記述はごくわずかである。
論文 参考訳(メタデータ) (2023-10-20T15:45:16Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - Aligning Language Models with Human Preferences via a Bayesian Approach [11.984246334043673]
人間中心の自然言語生成(NLG)システムを推し進めるためには、NLGモデルと人間の嗜好の整合性を確保することが不可欠である。
本稿では,人選好における不一致の分布を選好モデルのトレーニングとして考慮するために,ベイズ的枠組みを用いた新しいアプローチを提案する。
自動評価と人的評価の両方において,従来のSOTAモデルよりずっと上回っている。
論文 参考訳(メタデータ) (2023-10-09T15:15:05Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reinforcement Learning from Diverse Human Preferences [68.4294547285359]
本稿では,人選好ラベルをクラウドソーシングし,多様な嗜好から学習する手法を開発した。
提案手法はDMcontrolとMeta-worldの様々なタスクでテストされる。
多様なフィードバックから学ぶと、既存の好みベースのRLアルゴリズムよりも一貫性があり、大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-27T15:18:54Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - The LoCA Regret: A Consistent Metric to Evaluate Model-Based Behavior in
Reinforcement Learning [21.967763416902265]
本稿では,RL手法のモデルベース動作を評価するための実験装置を提案する。
我々のメトリクスは、たとえ手法が表現に乏しいとしても、モデルに基づく振る舞いを識別できる。
我々は、従来のマウンテンカータスクのバリエーションに基づいて、MuZeroのモデルに基づく振る舞いを評価するためにセットアップを使用する。
論文 参考訳(メタデータ) (2020-07-07T01:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。