論文の概要: Provable General Function Class Representation Learning in Multitask
Bandits and MDPs
- arxiv url: http://arxiv.org/abs/2205.15701v1
- Date: Tue, 31 May 2022 11:36:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 12:53:25.281468
- Title: Provable General Function Class Representation Learning in Multitask
Bandits and MDPs
- Title(参考訳): マルチタスク帯域とMDPにおける確率的一般関数クラス表現学習
- Authors: Rui Lu, Andrew Zhao, Simon S. Du, Gao Huang
- Abstract要約: マルチタスク表現学習は、サンプル効率を高めるために強化学習において一般的なアプローチである。
本研究では,解析結果を一般関数クラス表現に拡張する。
バンディットと線形MDPの一般関数クラスにおけるマルチタスク表現学習の利点を理論的に検証する。
- 参考スコア(独自算出の注目度): 58.624124220900306
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multitask representation learning has become a popular approach in
reinforcement learning (RL) to boost the sample efficiency, the theoretical
understanding of why and how it works is still limited. Most previous
analytical works could only assume that the representation function is already
known to the agent or from linear function class, since analyzing general
function class representation encounters non-trivial technical obstacles such
as generalization guarantee, formulation of confidence bound in abstract
function space, etc. However, linear-case analysis heavily relies on the
particularity of linear function class, while real-world practice usually
adopts general non-linear representation functions like neural networks. This
significantly reduces its applicability. In this work, we extend the analysis
to general function class representations. Specifically, we consider an agent
playing $M$ contextual bandits (or MDPs) concurrently and extracting a shared
representation function $\phi$ from a specific function class $\Phi$ using our
proposed Generalized Functional Upper Confidence Bound algorithm (GFUCB). We
theoretically validate the benefit of multitask representation learning within
general function class for bandits and linear MDP for the first time. Lastly,
we conduct experiments to demonstrate the effectiveness of our algorithm with
neural net representation.
- Abstract(参考訳): マルチタスク表現学習は、サンプル効率を高めるために強化学習(RL)において一般的なアプローチとなっているが、その理由と動作方法に関する理論的理解はまだ限られている。
一般関数クラス表現の分析は、一般化保証や抽象関数空間に束縛された信頼の定式化といった非自明な技術的障害に遭遇するためである。
しかしながら、線形ケース解析は線形関数クラスの特異性に大きく依存するが、現実の実践は通常、ニューラルネットワークのような一般的な非線形表現関数を採用する。
これにより適用性が大幅に低下する。
本研究では,解析結果を一般関数クラス表現に拡張する。
具体的には、提案した汎関数的上部信頼境界アルゴリズム(GFUCB)を用いて、M$コンテキスト帯域幅(MDP)を同時に演奏し、共有表現関数$\phi$を特定の関数クラス$\Phi$から抽出するエージェントについて検討する。
バンディットと線形mdpの一般関数クラスにおけるマルチタスク表現学習の利点を初めて理論的に検証した。
最後に,ニューラルネット表現を用いたアルゴリズムの有効性を示す実験を行った。
関連論文リスト
- Tractable and Provably Efficient Distributional Reinforcement Learning with General Value Function Approximation [8.378137704007038]
一般値関数近似を用いた分布強化学習における後悔の解析について述べる。
理論的な結果は,無限次元の戻り分布を有限個のモーメント関数で近似することが,統計情報をバイアスなく学習する唯一の方法であることを示している。
論文 参考訳(メタデータ) (2024-07-31T00:43:51Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - How Fine-Tuning Allows for Effective Meta-Learning [50.17896588738377]
MAMLライクなアルゴリズムから派生した表現を解析するための理論的フレームワークを提案する。
我々は,勾配降下による微調整により得られる最良予測器のリスク境界を提示し,アルゴリズムが共有構造を有効活用できることを実証する。
この分離の結果、マイニングベースのメソッド、例えばmamlは、少数ショット学習における"frozen representation"目標を持つメソッドよりも優れている。
論文 参考訳(メタデータ) (2021-05-05T17:56:00Z) - The Nonconvex Geometry of Linear Inverse Problems [26.049281826055797]
ゲージ関数は統計モデルの複雑性を測定する。
我々は、ゲージ関数の限界を克服する統計的複雑性、ゲージ$_p$関数の新しい概念を紹介します。
我々はゲージ$_p$関数の構成要素を持つ新しい学習マシンを提案し、このマシンを多くの統計保証付きでアームする。
論文 参考訳(メタデータ) (2021-01-07T21:55:08Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z) - UNIPoint: Universally Approximating Point Processes Intensities [125.08205865536577]
学習可能な関数のクラスが任意の有効な強度関数を普遍的に近似できることを示す。
ニューラルポイントプロセスモデルであるUNIPointを実装し,各イベントの基底関数の和をパラメータ化するために,リカレントニューラルネットワークを用いた。
論文 参考訳(メタデータ) (2020-07-28T09:31:56Z) - Invariant Feature Coding using Tensor Product Representation [75.62232699377877]
我々は,群不変特徴ベクトルが線形分類器を学習する際に十分な識別情報を含んでいることを証明した。
主成分分析やk平均クラスタリングにおいて,グループアクションを明示的に考慮する新たな特徴モデルを提案する。
論文 参考訳(メタデータ) (2019-06-05T07:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。