論文の概要: Taming "data-hungry" reinforcement learning? Stability in continuous
state-action spaces
- arxiv url: http://arxiv.org/abs/2401.05233v1
- Date: Wed, 10 Jan 2024 16:01:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 14:20:16.411705
- Title: Taming "data-hungry" reinforcement learning? Stability in continuous
state-action spaces
- Title(参考訳): データ・ハングリー」強化学習の改ざん?
連続状態-作用空間の安定性
- Authors: Yaqi Duan, Martin J. Wainwright
- Abstract要約: 連続状態空間における強化学習(RL)を解析するための新しいフレームワークを提案する。
本分析では,値関数やポリシーの変化がベルマン演算子や職業対策にどのように影響するか,という2つの重要な安定性特性を強調した。
- 参考スコア(独自算出の注目度): 37.239159848774094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a novel framework for analyzing reinforcement learning (RL) in
continuous state-action spaces, and use it to prove fast rates of convergence
in both off-line and on-line settings. Our analysis highlights two key
stability properties, relating to how changes in value functions and/or
policies affect the Bellman operator and occupation measures. We argue that
these properties are satisfied in many continuous state-action Markov decision
processes, and demonstrate how they arise naturally when using linear function
approximation methods. Our analysis offers fresh perspectives on the roles of
pessimism and optimism in off-line and on-line RL, and highlights the
connection between off-line RL and transfer learning.
- Abstract(参考訳): 本研究では, 連続状態行動空間における強化学習(RL)を解析するための新しいフレームワークを提案し, オフラインとオンラインの両方で高速な収束率を示す。
本研究は,価値関数および/又は政策の変化がベルマンオペレーターおよび職業措置に与える影響に関する2つの重要な安定性特性を浮き彫りにしたものである。
これらの性質は多くの連続的状態-作用マルコフ決定過程で満たされ、線形関数近似法を用いて自然にそれらがどのように生じるかを示す。
本分析は,オフラインRLとオンラインRLにおける悲観的・楽観的役割の新たな視点を提供し,オフラインRLと移動学習との関係を明らかにする。
関連論文リスト
- Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。
本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。
本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-23T02:41:36Z) - Investigating the Edge of Stability Phenomenon in Reinforcement Learning [20.631461205889487]
強化学習(RL)における安定性現象の端点を探る
教師付き学習との大きな違いにもかかわらず、安定性現象の端は、非政治的な深いRLに存在している。
この結果から,ニューラルネットワーク構造は問題領域間の移動を最適化するダイナミクスをもたらす可能性があるが,深いRL最適化の特定の側面は,教師付き学習のような領域と区別できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-09T15:46:27Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Near-optimal Offline Reinforcement Learning with Linear Representation:
Leveraging Variance Information with Pessimism [65.46524775457928]
オフライン強化学習は、オフライン/歴史的データを活用して、シーケンシャルな意思決定戦略を最適化しようとしている。
線形モデル表現を用いたオフライン強化学習の統計的限界について検討する。
論文 参考訳(メタデータ) (2022-03-11T09:00:12Z) - Dealing with the Unknown: Pessimistic Offline Reinforcement Learning [25.30634466168587]
本稿では, PessORLアルゴリズムを用いて, エージェントを慣れ親しんだ領域に積極的に誘導する手法を提案する。
我々は、アウト・オブ・ディストリビューション(OOD)状態に起因する問題に注目し、トレーニングデータセットに欠けている状態において、意図的に高い価値をペナルティ化する。
論文 参考訳(メタデータ) (2021-11-09T22:38:58Z) - Koopman Q-learning: Offline Reinforcement Learning via Symmetries of
Dynamics [29.219095364935885]
オフライン強化学習は、大規模なデータセットを活用して、環境とのインタラクションなしにポリシーをトレーニングする。
現在のアルゴリズムは、トレーニングデータセットに過度に適合し、環境のアウト・オブ・ディストリビューションの一般化にデプロイすると、パフォーマンスが悪くなります。
我々は、システムの基盤となる力学の対称性を推測できるクープマン潜在表現を学習する。
我々は,D4RL,Metaworld,Robosuiteなどのオフライン強化学習タスクとデータセットをベンチマークで評価した。
論文 参考訳(メタデータ) (2021-11-02T04:32:18Z) - Offline Reinforcement Learning with Value-based Episodic Memory [19.12430651038357]
オフライン強化学習(RL)は、実世界の問題にRLを適用することを約束している。
本稿では,最適値学習と行動クローニングを円滑に補間する予測型Vラーニング(EVL)を提案する。
本稿では,VEM(Value-based Episodic Memory)と呼ばれる新しいオフライン手法を提案する。
論文 参考訳(メタデータ) (2021-10-19T08:20:11Z) - GELATO: Geometrically Enriched Latent Model for Offline Reinforcement
Learning [54.291331971813364]
オフライン強化学習アプローチは、近近法と不確実性認識法に分けられる。
本研究では,この2つを潜在変動モデルに組み合わせることのメリットを実証する。
提案したメトリクスは、分布サンプルのアウトの品質と、データ内のサンプルの不一致の両方を測定します。
論文 参考訳(メタデータ) (2021-02-22T19:42:40Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。