論文の概要: Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning
- arxiv url: http://arxiv.org/abs/2508.07126v1
- Date: Sun, 10 Aug 2025 00:18:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.713771
- Title: Pref-GUIDE: Continual Policy Learning from Real-Time Human Feedback via Preference-Based Learning
- Title(参考訳): Pref-GUIDE:Preference-based Learningによるリアルタイムヒューマンフィードバックからの継続的なポリシー学習
- Authors: Zhengran Ji, Boyuan Chen,
- Abstract要約: リアルタイムスカラーフィードバックを優先データに変換するフレームワークであるPref-GUIDEを提案する。
Pref-GUIDE 個人は、短いウィンドウ内でのエージェントの挙動を比較することで時間的不整合を緩和する。
Pref-GUIDE Votingは、ユーザの集団間で報酬モデルを集約し、コンセンサス優先を形成することにより、ロバスト性を高める。
- 参考スコア(独自算出の注目度): 3.470709890025438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training reinforcement learning agents with human feedback is crucial when task objectives are difficult to specify through dense reward functions. While prior methods rely on offline trajectory comparisons to elicit human preferences, such data is unavailable in online learning scenarios where agents must adapt on the fly. Recent approaches address this by collecting real-time scalar feedback to guide agent behavior and train reward models for continued learning after human feedback becomes unavailable. However, scalar feedback is often noisy and inconsistent, limiting the accuracy and generalization of learned rewards. We propose Pref-GUIDE, a framework that transforms real-time scalar feedback into preference-based data to improve reward model learning for continual policy training. Pref-GUIDE Individual mitigates temporal inconsistency by comparing agent behaviors within short windows and filtering ambiguous feedback. Pref-GUIDE Voting further enhances robustness by aggregating reward models across a population of users to form consensus preferences. Across three challenging environments, Pref-GUIDE significantly outperforms scalar-feedback baselines, with the voting variant exceeding even expert-designed dense rewards. By reframing scalar feedback as structured preferences with population feedback, Pref-GUIDE offers a scalable and principled approach for harnessing human input in online reinforcement learning.
- Abstract(参考訳): 人的フィードバックによる強化学習エージェントの訓練は,高密度報酬関数によるタスク目標の特定が困難である場合に重要である。
従来の手法では、人間の嗜好を引き出すためにオフラインの軌道比較に頼っていたが、エージェントがオンザフライで適応しなければならないオンライン学習シナリオではそのようなデータは利用できない。
近年のアプローチでは、リアルタイムスカラーフィードバックを収集し、エージェントの動作をガイドし、人間のフィードバックが利用できなくなった後、継続的な学習のために報酬モデルを訓練している。
しかし、スカラーフィードバックはしばしばノイズが多く、一貫性がなく、学習した報酬の正確さと一般化を制限している。
本稿では,リアルタイムスカラーフィードバックを嗜好に基づくデータに変換するフレームワークであるPref-GUIDEを提案する。
Pref-GUIDE 個人は、短いウィンドウ内のエージェントの挙動を比較し、あいまいなフィードバックをフィルタリングすることによって、時間的不整合を緩和する。
Pref-GUIDE Votingは、利用者の集団間で報酬モデルを集約し、コンセンサス選好を形成することにより、ロバスト性をさらに向上させる。
Pref-GUIDEは3つの挑戦的な環境の中で、スカラーフィードバックベースラインを著しく上回り、投票のバリエーションは専門家が設計した高額な報酬を超えている。
Pref-GUIDEは、スカラーフィードバックを集団フィードバックによる構造化された嗜好として表現することで、オンライン強化学習における人間の入力を活用するためのスケーラブルで原則化されたアプローチを提供する。
関連論文リスト
- Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Online Bandit Learning with Offline Preference Data for Improved RLHF [15.799929216215672]
ノイズの多い選好フィードバックを持つオフラインデータセットでウォームスタートできるオンライン学習のための後部サンプリングアルゴリズムを提案する。
生成したエキスパートの“コンピテンス”をモデル化することで、そのようなデータセットを最も効果的に利用できることを示します。
論文 参考訳(メタデータ) (2024-06-13T20:25:52Z) - The Alignment Ceiling: Objective Mismatch in Reinforcement Learning from
Human Feedback [5.037876196534672]
人間のフィードバックからの強化学習(RLHF)は、複雑な環境で大きな言語モデル(LLM)をより有効にするための強力な技術として登場した。
本稿では,本問題の原因を概説し,モデルに基づく強化学習から関連する文献をレビューし,解決策について議論する。
論文 参考訳(メタデータ) (2023-10-31T21:52:41Z) - Iterative Reward Shaping using Human Feedback for Correcting Reward
Misspecification [15.453123084827089]
ITERSは、人間のフィードバックを用いて、不特定報酬関数の効果を緩和する反復的な報酬形成手法である。
ITERSを3つの環境で評価し,不特定報酬関数の修正に成功していることを示す。
論文 参考訳(メタデータ) (2023-08-30T11:45:40Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。