論文の概要: Multi-Task Off-Policy Learning from Bandit Feedback
- arxiv url: http://arxiv.org/abs/2212.04720v1
- Date: Fri, 9 Dec 2022 08:26:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:28:08.871020
- Title: Multi-Task Off-Policy Learning from Bandit Feedback
- Title(参考訳): バンディットフィードバックによるマルチタスクオフポリシー学習
- Authors: Joey Hong and Branislav Kveton and Sumeet Katariya and Manzil Zaheer
and Mohammad Ghavamzadeh
- Abstract要約: 本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
- 参考スコア(独自算出の注目度): 54.96011624223482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many practical applications, such as recommender systems and learning to
rank, involve solving multiple similar tasks. One example is learning of
recommendation policies for users with similar movie preferences, where the
users may still rank the individual movies slightly differently. Such tasks can
be organized in a hierarchy, where similar tasks are related through a shared
structure. In this work, we formulate this problem as a contextual off-policy
optimization in a hierarchical graphical model from logged bandit feedback. To
solve the problem, we propose a hierarchical off-policy optimization algorithm
(HierOPO), which estimates the parameters of the hierarchical model and then
acts pessimistically with respect to them. We instantiate HierOPO in linear
Gaussian models, for which we also provide an efficient implementation and
analysis. We prove per-task bounds on the suboptimality of the learned
policies, which show a clear improvement over not using the hierarchical model.
We also evaluate the policies empirically. Our theoretical and empirical
results show a clear advantage of using the hierarchy over solving each task
independently.
- Abstract(参考訳): 推薦システムやランク付け学習といった多くの実践的応用には、複数の類似したタスクの解決が含まれる。
例えば、類似の映画嗜好を持つユーザーの推薦ポリシーを学ぶことで、ユーザーは映画を微妙にランク付けすることができる。
このようなタスクは階層構造にまとめることができ、同様のタスクは共有構造を通じて関連付けられる。
本研究では,ログ付きバンディットフィードバックから階層型グラフィカルモデルにおいて,文脈的オフポリシー最適化としてこの問題を定式化する。
そこで本研究では,階層モデルのパラメータを推定し,それに対して悲観的に行動する階層的オフポリシー最適化アルゴリズム(hieropo)を提案する。
線形ガウスモデルでHierOPOをインスタンス化し、効率的な実装と分析を提供する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
また,政策を実証的に評価する。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
関連論文リスト
- On the benefits of pixel-based hierarchical policies for task generalization [7.207480346660617]
強化学習実践者は、特に画像に基づく観察空間において、階層的な政策を避けることが多い。
画素からのマルチタスクロボット制御実験により階層構造の利点を解析する。
論文 参考訳(メタデータ) (2024-07-27T01:26:26Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Planning with a Learned Policy Basis to Optimally Solve Complex Tasks [26.621462241759133]
本稿では,後継機能を用いて政策ベースを学習し,その中の各(サブ)政治が明確に定義されたサブプロブレムを解決することを提案する。
同じサブプロブレムの集合を含む有限状態オートマトン(FSA)によって記述されるタスクでは、これらの(サブ)ポリケーションの組み合わせを使用して、追加の学習なしに最適な解を生成することができる。
論文 参考訳(メタデータ) (2024-03-22T15:51:39Z) - Pessimistic Off-Policy Optimization for Learning to Rank [13.733459243449634]
オフ政治学習は、ポリシーをデプロイせずに最適化するためのフレームワークである。
レコメンデーションシステムでは、ログデータの不均衡のため、これは特に難しい。
我々は、ランク付け学習のための悲観的非政治最適化について研究する。
論文 参考訳(メタデータ) (2022-06-06T12:58:28Z) - Deep Hierarchy in Bandits [51.22833900944146]
行動の報酬は、しばしば相関する。
統計的効率を最大化するためには,これらの相関を学習に活用することが重要である。
平均作用報酬の相関が階層的ベイズモデルで表されるこの問題のバンディット変法を定式化する。
論文 参考訳(メタデータ) (2022-02-03T08:15:53Z) - Constructing a Good Behavior Basis for Transfer using Generalized Policy
Updates [63.58053355357644]
そこで我々は,優れた政策集合を学習する問題を考察し,組み合わせることで,目に見えない多種多様な強化学習タスクを解くことができることを示した。
理論的には、独立したポリシーのセットと呼ぶ、特定の多様なポリシーのセットにアクセスできることによって、ハイレベルなパフォーマンスを即時に達成できることが示される。
論文 参考訳(メタデータ) (2021-12-30T12:20:46Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - Hierarchical Variational Imitation Learning of Control Programs [131.7671843857375]
パラメータ化された階層的手順(PHP)で表される制御ポリシーの模倣学習のための変分推論手法を提案する。
本手法は, 教師による実演の観察・行動トレースのデータセットにおける階層構造を, 手続き呼び出しや用語の待ち行列に近似した後続分布を学習することによって発見する。
階層的模倣学習(hierarchical mimicion learning)の文脈における変分推論の新たな利点を実証する。
論文 参考訳(メタデータ) (2019-12-29T08:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。