Fugu-MT 論文翻訳(概要): Fast Adaptation via Policy-Dynamics Value Functions

論文の概要: Fast Adaptation via Policy-Dynamics Value Functions

arxiv url: http://arxiv.org/abs/2007.02879v1
Date: Mon, 6 Jul 2020 16:47:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-13 01:26:17.382508
Title: Fast Adaptation via Policy-Dynamics Value Functions
Title（参考訳）: ポリシー動的値関数による高速適応
Authors: Roberta Raileanu, Max Goldstein, Arthur Szlam, Rob Fergus
Abstract要約: 本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミックス値関数(PD-VF)を紹介する。 PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。提案手法は, MuJoCo ドメインの集合上で, 新たな動的処理に迅速に適応可能であることを示す。
参考スコア（独自算出の注目度）: 41.738462615120326
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Standard RL algorithms assume fixed environment dynamics and require a significant amount of interaction to adapt to new environments. We introduce Policy-Dynamics Value Functions (PD-VF), a novel approach for rapidly adapting to dynamics different from those previously seen in training. PD-VF explicitly estimates the cumulative reward in a space of policies and environments. An ensemble of conventional RL policies is used to gather experience on training environments, from which embeddings of both policies and environments can be learned. Then, a value function conditioned on both embeddings is trained. At test time, a few actions are sufficient to infer the environment embedding, enabling a policy to be selected by maximizing the learned value function (which requires no additional environment interaction). We show that our method can rapidly adapt to new dynamics on a set of MuJoCo domains. Code available at https://github.com/rraileanu/policy-dynamics-value-functions.
Abstract（参考訳）: 標準rlアルゴリズムは固定環境ダイナミクスを仮定し、新しい環境に適応するためにかなりの量の相互作用を必要とする。本稿では,従来のトレーニングと異なる動的に迅速に適応するための新しいアプローチとして,ポリシ・ダイナミクス値関数(PD-VF)を紹介する。 PD-VFは、ポリシーと環境の空間における累積報酬を明示的に推定する。従来のRLポリシーのアンサンブルは、トレーニング環境の経験を集めるために使用され、そこからポリシーと環境の両方の埋め込みを学ぶことができる。そして、両方の埋め込みで条件付けられた値関数を訓練する。テスト時、いくつかのアクションは環境の埋め込みを推測するのに十分であり、学習した値関数(追加の環境相互作用を必要としない)を最大化することでポリシーを選択できる。提案手法は,mujocoドメインの集合上で新たなダイナミクスに迅速に適応できることを示す。コードはhttps://github.com/rraileanu/policy-dynamics-value-functionsで利用可能。

関連論文リスト

FDPP: Fine-tune Diffusion Policy with Human Preference [57.44575105114056]
人間の嗜好を考慮した微調整拡散政策は、嗜好に基づく学習を通して報酬関数を学習する。この報酬は、訓練済みの政策を強化学習で微調整するために使われる。実験により、FDPPは性能を損なうことなく、効果的にポリシーの動作をカスタマイズできることが示されている。
論文参考訳（メタデータ） (2025-01-14T17:15:27Z)
Survival of the Fittest: Evolutionary Adaptation of Policies for Environmental Shifts [0.15889427269227555]
進化ゲーム理論(EGT)にインスパイアされた適応的再学習アルゴリズムを開発する。 ERPOは、ポリシー適応の高速化、平均報酬の向上、およびポリシー適応の計算コストの削減を示す。
論文参考訳（メタデータ） (2024-10-22T09:29:53Z)
OMPO: A Unified Framework for RL under Policy and Dynamics Shifts [42.57662196581823]
様々な政策やダイナミクスから収集された環境相互作用データを用いた強化学習政策の訓練は、根本的な課題である。既存の作業は、ポリシーやダイナミクスのシフトによって引き起こされる分散の相違を見落としている場合が多い。本稿では,オンラインRL政策学習のための統一的戦略をポリシーと動的シフトの多様な設定の下で同定する。
論文参考訳（メタデータ） (2024-05-29T13:36:36Z)
Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文参考訳（メタデータ） (2023-07-20T09:05:46Z)
PAnDR: Fast Adaptation to New Environments from Offline Experiences via Decoupling Policy and Environment Representations [39.11141327059819]
我々は、迅速な政策適応のための疎結合表現を用いた政策適応(PAnDR)を提案する。オフライン学習では、環境表現と政策表現は、対照的な学習と政策回復を通じて学習される。オンライン適応フェーズでは、新しい環境で収集された少数の経験から環境コンテキストを推定し、勾配上昇によってポリシーを最適化する。
論文参考訳（メタデータ） (2022-04-06T14:47:35Z)
Fast Model-based Policy Search for Universal Policy Networks [45.44896435487879]
エージェントの振る舞いを新しい環境に適応させることは、物理学に基づく強化学習の主要な焦点の1つとなっている。本稿では,以前に見つからなかった環境に移行した場合のポリシーの性能を推定する,ガウス過程に基づく事前学習手法を提案する。本研究は,ベイズ最適化に基づく政策探索プロセスと先行して統合し,普遍的な政策ネットワークから最も適切な政策を識別する効率を向上させる。
論文参考訳（メタデータ） (2022-02-11T18:08:02Z)
Learning a subspace of policies for online adaptation in Reinforcement Learning [14.7945053644125]
制御システムでは、ポリシーが学習されるロボットは、ポリシーが実行されるロボットとは異なるかもしれない。訓練条件のバリエーションによく適合するRL法を開発する必要がある。本稿では,列車時にテスト環境が不明な一般化環境に取り組む上で,最も簡単な方法を考える。
論文参考訳（メタデータ） (2021-10-11T11:43:34Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Learning to Continuously Optimize Wireless Resource In Episodically Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文参考訳（メタデータ） (2020-11-16T08:24:34Z)
Self-Supervised Policy Adaptation during Deployment [98.25486842109936]
セルフスーパービジョンでは、報酬を使わずに、デプロイ後のトレーニングを継続することができる。 DeepMind Control スイートと ViZDoom の様々なシミュレーション環境で実証評価を行う。提案手法は,36環境中31環境での一般化を向上し,多くの環境においてドメインランダム化に優れる。
論文参考訳（メタデータ） (2020-07-08T17:56:27Z)
Learning Adaptive Exploration Strategies in Dynamic Environments Through Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2020-05-06T16:14:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。