論文の概要: $P^{3}O$: Transferring Visual Representations for Reinforcement Learning
via Prompting
- arxiv url: http://arxiv.org/abs/2303.12371v1
- Date: Wed, 22 Mar 2023 08:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 14:53:20.041145
- Title: $P^{3}O$: Transferring Visual Representations for Reinforcement Learning
via Prompting
- Title(参考訳): P^{3}O$: プロンプトによる強化学習のための視覚表現の転送
- Authors: Guoliang You, Xiaomeng Chu, Yifan Duan, Jie Peng, Jianmin Ji, Yu Zhang
and Yanyong Zhang
- Abstract要約: 本稿では,ターゲットからソース環境への視覚表現の転送を行う3段階DRLアルゴリズムであるPromptベースのP3O$を紹介した。
We implement $P3O$ and evaluation it on the OpenAI CarRacing video game。
- 参考スコア(独自算出の注目度): 14.831261643044018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: It is important for deep reinforcement learning (DRL) algorithms to transfer
their learned policies to new environments that have different visual inputs.
In this paper, we introduce Prompt based Proximal Policy Optimization
($P^{3}O$), a three-stage DRL algorithm that transfers visual representations
from a target to a source environment by applying prompting. The process of
$P^{3}O$ consists of three stages: pre-training, prompting, and predicting. In
particular, we specify a prompt-transformer for representation conversion and
propose a two-step training process to train the prompt-transformer for the
target environment, while the rest of the DRL pipeline remains unchanged. We
implement $P^{3}O$ and evaluate it on the OpenAI CarRacing video game. The
experimental results show that $P^{3}O$ outperforms the state-of-the-art visual
transferring schemes. In particular, $P^{3}O$ allows the learned policies to
perform well in environments with different visual inputs, which is much more
effective than retraining the policies in these environments.
- Abstract(参考訳): 深層強化学習(DRL)アルゴリズムは、学習したポリシーを異なる視覚的入力を持つ新しい環境に移すことが重要である。
本稿では,プロンプトを適用することにより,対象からソース環境へ視覚表現を転送する3段階のdrlアルゴリズムであるprompate based proximal policy optimization (p^{3}o$)を提案する。
p^{3}o$のプロセスは、事前トレーニング、プロンプト、予測という3つのステージで構成される。
特に,表現変換のためのプロンプト変換器を特定し,対象環境に対してプロンプト変換器をトレーニングするための2段階のトレーニングプロセスを提案する。
私たちは、$p^{3}o$を実装し、openaiのカーレースゲームで評価します。
実験の結果,$P^{3}O$は最先端の視覚伝達方式よりも優れていた。
特に、$p^{3}o$は、異なる視覚入力を持つ環境で学習されたポリシーがうまく機能することを可能にする。
関連論文リスト
- What do we learn from a large-scale study of pre-trained visual
representations in sim and real environments? [49.846274625731795]
本研究では、実世界のタスクを実行する下流政策のトレーニングに、事前訓練された視覚表現(PVR)の使用に関する大規模な実証的研究を行う。
我々の研究は、5つの異なるPVR、二つの異なるポリシー学習パラダイム(シミュレーションと強化学習)、そして5つの異なる操作と屋内ナビゲーションタスクのための3つの異なるロボットにまたがる。
論文 参考訳(メタデータ) (2023-10-03T17:27:10Z) - Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。
本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文 参考訳(メタデータ) (2023-05-11T22:50:41Z) - Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。
学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文 参考訳(メタデータ) (2022-12-01T00:14:35Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - Frustratingly Easy Regularization on Representation Can Boost Deep
Reinforcement Learning [9.072416458330268]
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。
本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。
PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
論文 参考訳(メタデータ) (2022-05-29T02:29:32Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Federated Reinforcement Learning with Environment Heterogeneity [30.797692838836277]
我々は,フェデレート強化学習(FedRL)問題について検討し,エージェントと環境相互作用の過程で収集した軌跡を共有せずに,$n$エージェントがひとつの方針を協調的に学習する。
本稿では,2つの連合RLアルゴリズム, textttQAvg と textttPAvg を提案する。
論文 参考訳(メタデータ) (2022-04-06T07:21:00Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。
この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。
我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文 参考訳(メタデータ) (2021-01-06T19:07:31Z) - Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。
textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文 参考訳(メタデータ) (2020-10-12T17:51:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。