論文の概要: Transfer RL across Observation Feature Spaces via Model-Based
Regularization
- arxiv url: http://arxiv.org/abs/2201.00248v1
- Date: Sat, 1 Jan 2022 22:41:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:46:42.363847
- Title: Transfer RL across Observation Feature Spaces via Model-Based
Regularization
- Title(参考訳): モデルベース正規化による観測特徴空間間の移動RL
- Authors: Yanchao Sun, Ruijie Zheng, Xiyao Wang, Andrew Cohen, Furong Huang
- Abstract要約: 多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限される。
そこで本研究では,提案手法を用いて,ソースタスク中の潜時空間のダイナミクスを抽出し,対象タスクに動的モデルを転送するアルゴリズムを提案する。
本アルゴリズムは,タスク間マッピングや目標タスクの事前知識を使わずに,観測空間の劇的な変化に有効である。
- 参考スコア(独自算出の注目度): 9.660642248872973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In many reinforcement learning (RL) applications, the observation space is
specified by human developers and restricted by physical realizations, and may
thus be subject to dramatic changes over time (e.g. increased number of
observable features). However, when the observation space changes, the previous
policy will likely fail due to the mismatch of input features, and another
policy must be trained from scratch, which is inefficient in terms of
computation and sample complexity. Following theoretical insights, we propose a
novel algorithm which extracts the latent-space dynamics in the source task,
and transfers the dynamics model to the target task to use as a model-based
regularizer. Our algorithm works for drastic changes of observation space (e.g.
from vector-based observation to image-based observation), without any
inter-task mapping or any prior knowledge of the target task. Empirical results
show that our algorithm significantly improves the efficiency and stability of
learning in the target task.
- Abstract(参考訳): 多くの強化学習(RL)アプリケーションでは、観察空間は人間の開発者によって指定され、物理的実現によって制限されるため、時間とともに劇的な変化(観測可能な特徴の増加など)が発生する可能性がある。
しかし、観測空間が変化すると、入力特徴のミスマッチのために前のポリシーが失敗する可能性があり、計算やサンプルの複雑さの点で非効率なスクラッチから別のポリシーを訓練する必要がある。
理論的知見に従い、ソースタスクの潜在空間ダイナミクスを抽出し、モデルベース正規化器として使用する対象タスクにダイナミクスモデルを転送する新しいアルゴリズムを提案する。
我々のアルゴリズムは、ターゲットタスクのタスク間マッピングや事前の知識なしに、観測空間の劇的な変化(例えば、ベクトルベース観察から画像ベース観察)に対処する。
実験結果から,本アルゴリズムは目標課題における学習効率と安定性を著しく向上させることが示された。
関連論文リスト
- Reinforcement Learning for Intensity Control: An Application to Choice-Based Network Revenue Management [8.08366903467967]
我々は、選択に基づくネットワーク収益管理を用いた強化学習フレームワークを強化制御に適用する。
ジャンプポイントによって生成されたサンプルパスの固有な離散化を利用することで、事前に時間的地平線を識別する必要がないことを示す。
論文 参考訳(メタデータ) (2024-06-08T05:27:01Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Multi-Objective Decision Transformers for Offline Reinforcement Learning [7.386356540208436]
オフラインRLは、リアルタイム環境相互作用を必要とせずに、静的な軌道データからポリシーを導出するように構成されている。
オフラインRLを多目的最適化問題として再構成し、予測を状態と戻り値に拡張する。
D4RLベンチマークロコモーションタスクの実験により,提案手法がトランスモデルにおけるアテンションメカニズムをより効果的に活用できることが判明した。
論文 参考訳(メタデータ) (2023-08-31T00:47:58Z) - Task Arithmetic in the Tangent Space: Improved Editing of Pre-Trained
Models [96.9373147383119]
重みの絡み合いがタスク算術を効果的にするための重要な要素であることを示す。
それらの接空間における微調整モデルを線形化することにより、重みの絡み合いを増幅することを示した。
これにより、タスク演算ベンチマークや多種多様なモデルで大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-05-22T08:39:25Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL [90.06845886194235]
モデルベース強化学習(RL)のための修正目的を提案する。
相互情報に基づく状態空間モデルに,変分エンパワーメントにインスパイアされた用語を統合する。
本研究は,視覚に基づくロボット制御作業における自然な映像背景を用いたアプローチの評価である。
論文 参考訳(メタデータ) (2022-04-18T23:09:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。