論文の概要: Reinforcement Learning from Multi-level and Episodic Human Feedback
- arxiv url: http://arxiv.org/abs/2504.14732v3
- Date: Fri, 25 Apr 2025 21:54:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.718288
- Title: Reinforcement Learning from Multi-level and Episodic Human Feedback
- Title(参考訳): マルチレベル・エピソードフィードバックからの強化学習
- Authors: Muhammad Qasim Elahi, Somtochukwu Oguchienti, Maheed H. Ahmed, Mahsa Ghasemi,
- Abstract要約: 報酬関数と最適ポリシーの両方を多段階のフィードバックから効率的に学習するアルゴリズムを提案する。
提案アルゴリズムは, 広範囲なシミュレーションにより, サブ線形後悔を実現し, その経験的有効性を示す。
- 参考スコア(独自算出の注目度): 1.9686770963118378
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing an effective reward function has long been a challenge in reinforcement learning, particularly for complex tasks in unstructured environments. To address this, various learning paradigms have emerged that leverage different forms of human input to specify or refine the reward function. Reinforcement learning from human feedback is a prominent approach that utilizes human comparative feedback, expressed as a preference for one behavior over another, to tackle this problem. In contrast to comparative feedback, we explore multi-level human feedback, which is provided in the form of a score at the end of each episode. This type of feedback offers more coarse but informative signals about the underlying reward function than binary feedback. Additionally, it can handle non-Markovian rewards, as it is based on the evaluation of an entire episode. We propose an algorithm to efficiently learn both the reward function and the optimal policy from this form of feedback. Moreover, we show that the proposed algorithm achieves sublinear regret and demonstrate its empirical effectiveness through extensive simulations.
- Abstract(参考訳): 効果的な報酬関数を設計することは、特に非構造化環境における複雑なタスクにおいて、強化学習において長年の課題であった。
これを解決するために、報酬関数を特定または洗練するために様々な形態の人間の入力を活用する様々な学習パラダイムが出現した。
人間のフィードバックからの強化学習は、人間の比較フィードバックを利用した顕著なアプローチである。
比較フィードバックとは対照的に,各エピソードの最後にスコアの形で提供される多段階の人間のフィードバックについて検討する。
この種のフィードバックは、バイナリフィードバックよりも、基礎となる報酬関数について、より粗いが情報的なシグナルを提供する。
さらに、エピソード全体の評価に基づいて、非マルコフ報酬を処理できる。
この形式のフィードバックから報酬関数と最適ポリシーの両方を効率的に学習するアルゴリズムを提案する。
さらに,提案アルゴリズムは,広範囲なシミュレーションにより,サブ線形後悔を実現し,その経験的有効性を示す。
関連論文リスト
- Reward Learning from Multiple Feedback Types [7.910064218813772]
様々な種類のフィードバックを活用でき、強力な報酬モデリング性能が得られることを示す。
この研究は、RLHFのマルチタイプフィードバックの可能性を示す最初の強力な指標である。
論文 参考訳(メタデータ) (2025-02-28T13:29:54Z) - Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Iterative Reward Shaping using Human Feedback for Correcting Reward
Misspecification [15.453123084827089]
ITERSは、人間のフィードバックを用いて、不特定報酬関数の効果を緩和する反復的な報酬形成手法である。
ITERSを3つの環境で評価し,不特定報酬関数の修正に成功していることを示す。
論文 参考訳(メタデータ) (2023-08-30T11:45:40Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Provable Reward-Agnostic Preference-Based Reinforcement Learning [61.39541986848391]
PbRL(Preference-based Reinforcement Learning)は、RLエージェントが、軌道上のペアワイドな嗜好に基づくフィードバックを用いてタスクを最適化することを学ぶパラダイムである。
本稿では,隠れた報酬関数の正確な学習を可能にする探索軌道を求める理論的報酬非依存PbRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-29T15:00:09Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Learning Behaviors with Uncertain Human Feedback [26.046639156418223]
本稿では,人間のフィードバックの不確実性を考慮した新しいフィードバックモデルを提案する。
人工シナリオと実世界のシナリオの双方において,提案手法の優れた性能を示す実験結果が得られた。
論文 参考訳(メタデータ) (2020-06-07T16:51:48Z) - Reinforcement Learning with Feedback Graphs [69.1524391595912]
エージェントがステップ毎に追加のフィードバックを受けた場合,決定過程におけるエピソード強化学習について検討する。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
論文 参考訳(メタデータ) (2020-05-07T22:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。