論文の概要: Reinforcement Learning in Low-Rank MDPs with Density Features
- arxiv url: http://arxiv.org/abs/2302.02252v1
- Date: Sat, 4 Feb 2023 22:46:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:20:16.866662
- Title: Reinforcement Learning in Low-Rank MDPs with Density Features
- Title(参考訳): 密度特徴を持つ低域MDPにおける強化学習
- Authors: Audrey Huang, Jinglin Chen, Nan Jiang
- Abstract要約: 低ランク遷移を持つMDPは、抽出可能な学習を可能にする非常に代表的な構造である。
本研究では, 密度特性を用いたサンプル効率学習, すなわち, 状態占有分布の強力なモデルを生成する正しい行列について検討する。
- 参考スコア(独自算出の注目度): 12.932032416729774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: MDPs with low-rank transitions -- that is, the transition matrix can be
factored into the product of two matrices, left and right -- is a highly
representative structure that enables tractable learning. The left matrix
enables expressive function approximation for value-based learning and has been
studied extensively. In this work, we instead investigate sample-efficient
learning with density features, i.e., the right matrix, which induce powerful
models for state-occupancy distributions. This setting not only sheds light on
leveraging unsupervised learning in RL, but also enables plug-in solutions for
convex RL. In the offline setting, we propose an algorithm for off-policy
estimation of occupancies that can handle non-exploratory data. Using this as a
subroutine, we further devise an online algorithm that constructs exploratory
data distributions in a level-by-level manner. As a central technical
challenge, the additive error of occupancy estimation is incompatible with the
multiplicative definition of data coverage. In the absence of strong
assumptions like reachability, this incompatibility easily leads to exponential
error blow-up, which we overcome via novel technical tools. Our results also
readily extend to the representation learning setting, when the density
features are unknown and must be learned from an exponentially large candidate
set.
- Abstract(参考訳): 低ランクな遷移を持つMDP -- すなわち、遷移行列は、左右の2つの行列の積に分解できる -- は、抽出可能な学習を可能にする非常に代表的な構造である。
左行列は、値に基づく学習のための表現関数近似を可能にし、広く研究されている。
そこで本研究では,密度特性を用いたサンプル効率学習,すなわち,状態占有分布の強力なモデルを生成する正しい行列について検討する。
この設定は、教師なし学習をRLで活用するだけでなく、凸RLのプラグインソリューションを可能にする。
オフライン環境では,非探索的なデータを処理可能な占有者のオフポリシー推定アルゴリズムを提案する。
これをサブルーチンとして、探索的データ分布をレベルバイレベルに構築するオンラインアルゴリズムをさらに考案する。
中心的な技術的課題として、占有率推定の付加誤差は、データカバレッジの乗法的定義とは相容れない。
到達性のような強い仮定がなければ、この非互換性は、新しい技術ツールによって克服された指数的エラーの爆発を引き起こす。
また, 密度特徴が不明であり, 指数関数的に大きな候補集合から学習する必要がある場合, 表現学習環境にも容易に拡張できる。
関連論文リスト
- Offline RL via Feature-Occupancy Gradient Ascent [9.983014605039658]
大規模無限水平割引マルコフ決定過程(MDP)におけるオフライン強化学習の研究
我々は,特徴占有空間における勾配上昇の形式を実行する新しいアルゴリズムを開発した。
結果として得られた単純なアルゴリズムは、強い計算とサンプルの複雑さの保証を満たすことを示す。
論文 参考訳(メタデータ) (2024-05-22T15:39:05Z) - Querying Easily Flip-flopped Samples for Deep Active Learning [63.62397322172216]
アクティブラーニング(英: Active Learning)は、ラベルのないデータを戦略的に選択してクエリすることで、モデルの性能を向上させることを目的とした機械学習パラダイムである。
効果的な選択戦略の1つはモデルの予測の不確実性に基づくもので、サンプルがどの程度情報的であるかの尺度として解釈できる。
本稿では,予測されたラベルの不一致の最小確率として,最小不一致距離(LDM)を提案する。
論文 参考訳(メタデータ) (2024-01-18T08:12:23Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Pareto Frontiers in Neural Feature Learning: Data, Compute, Width, and
Luck [35.6883212537938]
オフラインスパースパリティ学習は,多層パーセプトロンの勾配に基づくトレーニングにおいて,統計的クエリの下限を許容する教師付き分類問題である。
理論上, 実験上, 疎初期化とネットワーク幅の増大がサンプル効率を著しく向上させることを示す。
また,合成スパースパリティタスクは,軸方向の特徴学習を必要とする現実的な問題のプロキシとして有用であることを示す。
論文 参考訳(メタデータ) (2023-09-07T15:52:48Z) - Solving weakly supervised regression problem using low-rank manifold
regularization [77.34726150561087]
我々は弱い教師付き回帰問題を解く。
weakly"の下では、いくつかのトレーニングポイントではラベルが知られ、未知のものもあれば、無作為なノイズの存在やリソースの欠如などの理由によって不確かであることが分かっています。
数値的な節ではモンテカルロモデルを用いて提案手法を人工と実のデータセットに適用した。
論文 参考訳(メタデータ) (2021-04-13T23:21:01Z) - Learning Centric Power Allocation for Edge Intelligence [84.16832516799289]
分散データを収集し、エッジで機械学習を実行するエッジインテリジェンスが提案されている。
本稿では,経験的分類誤差モデルに基づいて無線リソースを割り当てるLCPA法を提案する。
実験の結果,提案したLCPAアルゴリズムは,他のパワーアロケーションアルゴリズムよりも有意に優れていた。
論文 参考訳(メタデータ) (2020-07-21T07:02:07Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。