論文の概要: CueLearner: Bootstrapping and local policy adaptation from relative feedback
- arxiv url: http://arxiv.org/abs/2507.04730v1
- Date: Mon, 07 Jul 2025 07:54:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.31644
- Title: CueLearner: Bootstrapping and local policy adaptation from relative feedback
- Title(参考訳): CueLearner: 相対的なフィードバックによるブートストラップとローカルポリシ適応
- Authors: Giulio Schiavi, Andrei Cramariuc, Lionel Ott, Roland Siegwart,
- Abstract要約: 相対的なフィードバックは、ユーザビリティと情報豊かさのバランスを提供します。
これまでの研究では、ポリシー探索手法の強化に相対的なフィードバックが利用できることが示されている。
相対的なフィードバックから学習する新しい手法を導入し,それを非政治的強化学習と組み合わせる。
- 参考スコア(独自算出の注目度): 31.015306281489327
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human guidance has emerged as a powerful tool for enhancing reinforcement learning (RL). However, conventional forms of guidance such as demonstrations or binary scalar feedback can be challenging to collect or have low information content, motivating the exploration of other forms of human input. Among these, relative feedback (i.e., feedback on how to improve an action, such as "more to the left") offers a good balance between usability and information richness. Previous research has shown that relative feedback can be used to enhance policy search methods. However, these efforts have been limited to specific policy classes and use feedback inefficiently. In this work, we introduce a novel method to learn from relative feedback and combine it with off-policy reinforcement learning. Through evaluations on two sparse-reward tasks, we demonstrate our method can be used to improve the sample efficiency of reinforcement learning by guiding its exploration process. Additionally, we show it can adapt a policy to changes in the environment or the user's preferences. Finally, we demonstrate real-world applicability by employing our approach to learn a navigation policy in a sparse reward setting.
- Abstract(参考訳): 人間指導は強化学習(RL)を強化する強力なツールとして登場した。
しかしながら、実証や二元的スカラーフィードバックのような従来の指導形態は、情報内容の少ない収集や取得が困難であり、人間の入力の他の形態の探索を動機付けている。
これらのうち、相対的なフィードバック(例えば、"more to the left"のようなアクションを改善するためのフィードバック)は、ユーザビリティと情報豊かさのバランスが良い。
これまでの研究では、ポリシー探索手法の強化に相対的なフィードバックが利用できることが示されている。
しかしながら、これらの取り組みは特定のポリシークラスに限られており、フィードバックを非効率に使用しています。
本研究では,相対的なフィードバックから学習し,政治以外の強化学習と組み合わせた新しい手法を提案する。
本手法は,2つのスパース・リワードタスクの評価を通じて,探索過程を導くことで,強化学習のサンプル効率を向上させるために有効であることを示す。
さらに、環境の変化やユーザの好みに応じてポリシーを適用することができることを示す。
最後に,ナビゲーションポリシーをスパース報酬設定で学習する手法を用いて実世界の応用性を実証する。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Provable Benefits of Policy Learning from Human Preferences in
Contextual Bandit Problems [82.92678837778358]
嗜好に基づく手法は、InstructGPTのような経験的応用でかなりの成功を収めている。
フィードバックモデリングにおける人間のバイアスと不確実性がこれらのアプローチの理論的保証にどのように影響するかを示す。
論文 参考訳(メタデータ) (2023-07-24T17:50:24Z) - Click-Feedback Retrieval [10.203235400791845]
本研究では,ユーザが好ましくない検索結果をクリックしてフィードバックを提供する環境について検討する。
我々は,ファッション領域における大規模データセットに基づいて,クリックフィードバック検索と呼ばれる新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2023-04-28T19:03:03Z) - Sample Efficient Social Navigation Using Inverse Reinforcement Learning [11.764601181046498]
本稿では,人間の軌道観測から学習する逆強化学習に基づくアルゴリズムについて述べる。
私たちは、トレーニング時間とサンプルの複雑さを減らしながら、我々のアプローチがより良いパフォーマンスをもたらすことを示しています。
論文 参考訳(メタデータ) (2021-06-18T19:07:41Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。