論文の概要: FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs
- arxiv url: http://arxiv.org/abs/2006.10814v2
- Date: Wed, 22 Jul 2020 16:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:07:13.136798
- Title: FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs
- Title(参考訳): FLAMBE:低位MDPの構造複雑性と表現学習
- Authors: Alekh Agarwal, Sham Kakade, Akshay Krishnamurthy, Wen Sun
- Abstract要約: この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
- 参考スコア(独自算出の注目度): 53.710405006523274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to deal with the curse of dimensionality in reinforcement learning
(RL), it is common practice to make parametric assumptions where values or
policies are functions of some low dimensional feature space. This work focuses
on the representation learning question: how can we learn such features? Under
the assumption that the underlying (unknown) dynamics correspond to a low rank
transition matrix, we show how the representation learning question is related
to a particular non-linear matrix decomposition problem. Structurally, we make
precise connections between these low rank MDPs and latent variable models,
showing how they significantly generalize prior formulations for representation
learning in RL. Algorithmically, we develop FLAMBE, which engages in
exploration and representation learning for provably efficient RL in low rank
transition models.
- Abstract(参考訳): 強化学習(RL)における次元性の呪いに対処するためには、値やポリシーが低次元の特徴空間の関数であるようなパラメトリックな仮定を行うのが一般的である。
この機能をどのように学べばよいのか?
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
構造的には、これらの低階 MDP と潜在変数モデルとの間の正確な接続を行い、RL における表現学習の事前定式化をいかに大きく一般化するかを示す。
アルゴリズムにより,低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
関連論文リスト
- Locating Information in Large Language Models via Random Matrix Theory [0.0]
我々は,事前学習した変換器モデルBERTとLlamaの重量行列を解析した。
訓練後に偏差が出現し モデル内の学習された構造が特定できます
その結果、微調整後、小さな特異値がモデルの能力に重要な役割を果たすことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-23T11:19:08Z) - Reinforcement Learning in Low-Rank MDPs with Density Features [12.932032416729774]
低ランク遷移を持つMDPは、抽出可能な学習を可能にする非常に代表的な構造である。
本研究では, 密度特性を用いたサンプル効率学習, すなわち, 状態占有分布の強力なモデルを生成する正しい行列について検討する。
論文 参考訳(メタデータ) (2023-02-04T22:46:28Z) - Categorical semantics of compositional reinforcement learning [25.752647944862183]
強化学習(RL)はしばしば、問題をサブタスクに分解し、これらのタスクで学習した振る舞いを構成する必要がある。
分類的視点を用いたRLの補間理論の枠組みを開発する。
mathsfMDP$は特定の繊維製品やプッシュアウトなどの自然な構成操作を許容することを示す。
論文 参考訳(メタデータ) (2022-08-29T15:51:36Z) - Representation Learning for Online and Offline RL in Low-rank MDPs [36.398511188102205]
我々は、遷移力学が低ランク遷移行列に対応する低ランクマルコフ決定過程(MDP)に焦点を当てる。
FLAMBEで使用されるのと同じオーラクルで操作するオンライン環境では、RLのためのREP-UCBアッパー信頼境界表現学習アルゴリズムを提案する。
オフラインのRL設定では、ペシミズムを利用して部分被覆条件下で学習するアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-10-09T22:04:34Z) - Sample Efficient Reinforcement Learning In Continuous State Spaces: A
Perspective Beyond Linearity [50.38337893712897]
線形性を仮定しないMDP上の構造条件であるEPW(Effective Planning Window)条件を導入する。
EPW条件は、この条件を満たすMDPを確実に解くアルゴリズムを提供することで、サンプル効率のよいRLを許容することを示した。
また, EPW のような条件の必要性も示し, わずかに非線形な単純な MDP を効率的にサンプリングできないことを示した。
論文 参考訳(メタデータ) (2021-06-15T00:06:59Z) - Nonparametric Trace Regression in High Dimensions via Sign Series
Representation [13.37650464374017]
高次元関数の構造的符号系列表現による非パラメトリックトレース回帰モデルのためのフレームワークを開発する。
行列完備化の文脈において、我々のフレームワークは、行列の「符号ランク」と呼ばれるものに基づいて、かなりリッチなモデルへと導かれる。
論文 参考訳(メタデータ) (2021-05-04T22:20:00Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Prototypical Contrastive Learning of Unsupervised Representations [171.3046900127166]
原型コントラスト学習(Prototypeal Contrastive Learning, PCL)は、教師なし表現学習法である。
PCLは暗黙的にデータのセマンティック構造を学習された埋め込み空間にエンコードする。
PCLは、複数のベンチマークで最先端のインスタンスワイド・コントラスト学習法より優れている。
論文 参考訳(メタデータ) (2020-05-11T09:53:36Z) - Plannable Approximations to MDP Homomorphisms: Equivariance under
Actions [72.30921397899684]
学習した表現に作用同値を強制する対照的な損失関数を導入する。
損失が 0 であるとき、決定論的マルコフ決定過程の準同型が存在することを証明している。
本研究では, 決定論的MDPに対して, 抽象MDPの最適方針を元のMDPに引き上げることに成功した。
論文 参考訳(メタデータ) (2020-02-27T08:29:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。