論文の概要: Provably Efficient Interactive-Grounded Learning with Personalized Reward
- arxiv url: http://arxiv.org/abs/2405.20677v1
- Date: Fri, 31 May 2024 08:21:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 15:07:03.114959
- Title: Provably Efficient Interactive-Grounded Learning with Personalized Reward
- Title(参考訳): パーソナライズされたリワードを用いた対話型学習
- Authors: Mengxiao Zhang, Yuheng Zhang, Haipeng Luo, Paul Mineiro,
- Abstract要約: インタラクティブ・グラウンドド・ラーニング(Interactive-Grounded Learning, IGL)は、学習者が観測不能な報酬を最大化することを目的とした強力なフレームワークである。
我々は、実現可能性の下でサブ線形後悔を伴う最初の証明可能な効率のよいアルゴリズムを提供する。
本稿では,探索-テーマ-露光に基づく2つのアルゴリズムと,逆ギャップ重み付けに基づく2つのアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 44.64476717773815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interactive-Grounded Learning (IGL) [Xie et al., 2021] is a powerful framework in which a learner aims at maximizing unobservable rewards through interacting with an environment and observing reward-dependent feedback on the taken actions. To deal with personalized rewards that are ubiquitous in applications such as recommendation systems, Maghakian et al. [2022] study a version of IGL with context-dependent feedback, but their algorithm does not come with theoretical guarantees. In this work, we consider the same problem and provide the first provably efficient algorithms with sublinear regret under realizability. Our analysis reveals that the step-function estimator of prior work can deviate uncontrollably due to finite-sample effects. Our solution is a novel Lipschitz reward estimator which underestimates the true reward and enjoys favorable generalization performances. Building on this estimator, we propose two algorithms, one based on explore-then-exploit and the other based on inverse-gap weighting. We apply IGL to learning from image feedback and learning from text feedback, which are reward-free settings that arise in practice. Experimental results showcase the importance of using our Lipschitz reward estimator and the overall effectiveness of our algorithms.
- Abstract(参考訳): インタラクティブ・グラウンドド・ラーニング(Interactive-Grounded Learning, IGL) [Xie et al , 2021] は、学習者が環境と対話し、獲得した行動に対する報酬依存のフィードバックを観察することによって、観測不可能な報酬を最大化することを目的とした強力なフレームワークである。
推薦システムなどのアプリケーションでユビキタスなパーソナライズされた報酬に対処するために、Maghakian氏ら[2022]は、コンテキスト依存のフィードバックでIGLのバージョンを研究しているが、そのアルゴリズムには理論的保証はない。
本研究では,同じ問題を考察し,実現可能性下でのサブ線形後悔を伴う最初の証明可能なアルゴリズムを提供する。
解析の結果,先行作業のステップ関数推定器は有限サンプル効果により非制御的に逸脱しうることが明らかとなった。
我々の解は、真の報酬を過小評価し、良好な一般化性能を享受する新しいリプシッツ報酬推定器である。
この推定器を用いて,探索列探索と逆ギャップ重み付けに基づく2つのアルゴリズムを提案する。
IGLを画像フィードバックから学習し、テキストフィードバックから学習する。
実験の結果,リプシッツ報酬推定器の使用の重要性とアルゴリズムの全体的な有効性を示した。
関連論文リスト
- A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Neural Active Learning Beyond Bandits [69.99592173038903]
ストリームベースとプールベースの両方のアクティブラーニングをニューラルネットワーク近似を用いて検討する。
ストリームベースおよびプールベースアクティブラーニングのためのニューラルネットワークを新たに設計したエクスプロイトと探索に基づく2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-04-18T21:52:14Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Behavior Alignment via Reward Function Optimization [23.92721220310242]
設計者のドメイン知識と環境のプライマリ報酬を反映した補助報酬を統合する新しいフレームワークを導入する。
提案手法の有効性を,小型実験から高次元制御課題に至るまで,様々な課題に対して評価する。
論文 参考訳(メタデータ) (2023-10-29T13:45:07Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Interaction-Grounded Learning with Action-inclusive Feedback [46.29513917377202]
フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成する。
提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。
論文 参考訳(メタデータ) (2022-06-16T17:59:10Z) - Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits [36.37578212532926]
マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
論文 参考訳(メタデータ) (2021-06-28T17:37:49Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。