論文の概要: Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits
- arxiv url: http://arxiv.org/abs/2106.14866v1
- Date: Mon, 28 Jun 2021 17:37:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 14:04:41.117024
- Title: Learning from an Exploring Demonstrator: Optimal Reward Estimation for
Bandits
- Title(参考訳): 探索的デモレータからの学習:バンドの最適リワード推定
- Authors: Wenshuo Guo, Kumar Krishna Agrawal, Aditya Grover, Vidya Muthukumar,
Ashwin Pananjady
- Abstract要約: マルチアームバンディットインスタンスの報酬を推定する"逆バンディット"問題を導入する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としている。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションのための簡易かつ効率的な報酬推定手法を開発する。
- 参考スコア(独自算出の注目度): 36.37578212532926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the "inverse bandit" problem of estimating the rewards of a
multi-armed bandit instance from observing the learning process of a low-regret
demonstrator. Existing approaches to the related problem of inverse
reinforcement learning assume the execution of an optimal policy, and thereby
suffer from an identifiability issue. In contrast, our paradigm leverages the
demonstrator's behavior en route to optimality, and in particular, the
exploration phase, to obtain consistent reward estimates. We develop simple and
efficient reward estimation procedures for demonstrations within a class of
upper-confidence-based algorithms, showing that reward estimation gets
progressively easier as the regret of the algorithm increases. We match these
upper bounds with information-theoretic lower bounds that apply to any
demonstrator algorithm, thereby characterizing the optimal tradeoff between
exploration and reward estimation. Extensive empirical evaluations on both
synthetic data and simulated experimental design data from the natural sciences
corroborate our theoretical results.
- Abstract(参考訳): 本稿では,マルチアームバンディットインスタンスの報酬を,低レグレットデモンストレータの学習過程から推定する「逆バンディット問題」を提案する。
逆強化学習の関連問題に対する既存のアプローチは、最適なポリシーの実行を前提としており、それによって識別可能性の問題に悩まされる。
対照的に、我々のパラダイムは、最適性、特に探索フェーズへの道のりにおける実証者の振舞いを利用して、一貫した報酬推定値を得る。
提案手法は,高信頼度アルゴリズムのクラス内でのデモンストレーションの簡便かつ効率的な報酬推定手法を開発し,アルゴリズムの後悔が増大するにつれて,報酬推定が徐々に容易になることを示す。
これらの上界を,任意のデモンストレータアルゴリズムに適用可能な情報理論的下界と一致させ,探索と報酬推定の最適トレードオフを特徴付ける。
自然科学による合成データとシミュレーション実験設計データの両方に関する広範な実証的評価は、我々の理論結果と一致している。
関連論文リスト
- Alpha and Prejudice: Improving $α$-sized Worst-case Fairness via Intrinsic Reweighting [34.954141077528334]
既成人口集団との最悪のフェアネスは、最悪の集団のモデルユーティリティを最大化することで、同等性を達成する。
近年の進歩は、最小分割比の低い境界を導入することで、この学習問題を再構築している。
論文 参考訳(メタデータ) (2024-11-05T13:04:05Z) - Multi-Agent Reinforcement Learning from Human Feedback: Data Coverage and Algorithmic Techniques [65.55451717632317]
我々は,MARLHF(Multi-Agent Reinforcement Learning from Human Feedback)について検討し,理論的基礎と実証的検証の両方について検討した。
我々は,このタスクを,一般ゲームにおける嗜好のみのオフラインデータセットからナッシュ均衡を識別するものとして定義する。
本研究は,MARLHFの多面的アプローチを基礎として,効果的な嗜好に基づくマルチエージェントシステムの実現を目指している。
論文 参考訳(メタデータ) (2024-09-01T13:14:41Z) - A Unified Linear Programming Framework for Offline Reward Learning from Human Demonstrations and Feedback [6.578074497549894]
Inverse Reinforcement Learning (IRL) と Reinforcement Learning from Human Feedback (RLHF) は報酬学習における重要な方法論である。
本稿では,オフライン報酬学習に適した新しい線形プログラミング(LP)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-20T23:59:26Z) - Rewarding Episodic Visitation Discrepancy for Exploration in
Reinforcement Learning [64.8463574294237]
本稿では,効率的かつ定量的な探索手法として,Rewarding Episodic Visitation Discrepancy (REVD)を提案する。
REVDは、R'enyiの発散に基づくエピソード間の訪問不一致を評価することによって、本質的な報酬を提供する。
PyBullet Robotics EnvironmentsとAtariゲームでテストされている。
論文 参考訳(メタデータ) (2022-09-19T08:42:46Z) - IL-flOw: Imitation Learning from Observation using Normalizing Flows [28.998176144874193]
本稿では,エキスパート状態観測のみから逆強化学習(IRL)のアルゴリズムを提案する。
我々のアプローチは、最先端の敵対的手法とは異なり、報酬モデリングを政策学習から切り離している。
論文 参考訳(メタデータ) (2022-05-19T00:05:03Z) - Flexible and Efficient Contextual Bandits with Heterogeneous Treatment
Effect Oracle [12.906249996227904]
異種処理効果推定オラクルを用いた統計的に最適で計算効率の良いアルゴリズムを設計する。
本研究は, 汎用的不均一処理効果推定法に対して, 文脈的帯域幅を普遍的に低減した最初の方法である。
提案手法は,2乗誤差回帰オラクルに基づく報酬推定法よりも,誤特定をモデル化する方が堅牢であることを示す。
論文 参考訳(メタデータ) (2022-03-30T20:43:43Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Reinforcement Learning with Trajectory Feedback [76.94405309609552]
本研究では、この仮定を緩和する第一歩を踏み出し、より弱い形のフィードバックを必要とする。
あらゆる行動の後に得られる報酬を観察する代わりに、エージェントが観察する全軌道の質、すなわち、この軌道上で得られるすべての報酬の総和を表すスコアのみを受け取ると仮定する。
我々は、未知の遷移モデルと未知の遷移モデルの両方に対して、未知の報酬の最小二乗推定に基づいて強化学習アルゴリズムをこの設定に拡張し、それらの後悔を分析してこれらのアルゴリズムの性能について検討する。
論文 参考訳(メタデータ) (2020-08-13T17:49:18Z) - Learning the Truth From Only One Side of the Story [58.65439277460011]
一般化線形モデルに焦点をあて、このサンプリングバイアスを調整しなければ、モデルは準最適に収束するか、あるいは最適解に収束しないかもしれないことを示す。
理論的保証を伴って適応的なアプローチを提案し、いくつかの既存手法を実証的に上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-08T18:20:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。