Fugu-MT 論文翻訳(概要): $P^{3}O$: Transferring Visual Representations for Reinforcement Learning via Prompting

論文の概要: $P^{3}O$: Transferring Visual Representations for Reinforcement Learning via Prompting

arxiv url: http://arxiv.org/abs/2303.12371v1
Date: Wed, 22 Mar 2023 08:14:23 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-23 14:53:20.041145
Title: $P^{3}O$: Transferring Visual Representations for Reinforcement Learning via Prompting
Title（参考訳）: P^{3}O$: プロンプトによる強化学習のための視覚表現の転送
Authors: Guoliang You, Xiaomeng Chu, Yifan Duan, Jie Peng, Jianmin Ji, Yu Zhang and Yanyong Zhang
Abstract要約: 本稿では,ターゲットからソース環境への視覚表現の転送を行う3段階DRLアルゴリズムであるPromptベースのP3O$を紹介した。 We implement $P3O$ and evaluation it on the OpenAI CarRacing video game。
参考スコア（独自算出の注目度）: 14.831261643044018
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: It is important for deep reinforcement learning (DRL) algorithms to transfer their learned policies to new environments that have different visual inputs. In this paper, we introduce Prompt based Proximal Policy Optimization ($P^{3}O$), a three-stage DRL algorithm that transfers visual representations from a target to a source environment by applying prompting. The process of $P^{3}O$ consists of three stages: pre-training, prompting, and predicting. In particular, we specify a prompt-transformer for representation conversion and propose a two-step training process to train the prompt-transformer for the target environment, while the rest of the DRL pipeline remains unchanged. We implement $P^{3}O$ and evaluate it on the OpenAI CarRacing video game. The experimental results show that $P^{3}O$ outperforms the state-of-the-art visual transferring schemes. In particular, $P^{3}O$ allows the learned policies to perform well in environments with different visual inputs, which is much more effective than retraining the policies in these environments.
Abstract（参考訳）: 深層強化学習(DRL)アルゴリズムは、学習したポリシーを異なる視覚的入力を持つ新しい環境に移すことが重要である。本稿では,プロンプトを適用することにより,対象からソース環境へ視覚表現を転送する3段階のdrlアルゴリズムであるprompate based proximal policy optimization (p^{3}o$)を提案する。 p^{3}o$のプロセスは、事前トレーニング、プロンプト、予測という3つのステージで構成される。特に,表現変換のためのプロンプト変換器を特定し,対象環境に対してプロンプト変換器をトレーニングするための2段階のトレーニングプロセスを提案する。私たちは、$p^{3}o$を実装し、openaiのカーレースゲームで評価します。実験の結果,$P^{3}O$は最先端の視覚伝達方式よりも優れていた。特に、$p^{3}o$は、異なる視覚入力を持つ環境で学習されたポリシーがうまく機能することを可能にする。

関連論文リスト

One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。 V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文参考訳（メタデータ） (2025-05-23T17:41:14Z)
H$^3$DP: Triply-Hierarchical Diffusion Policy for Visuomotor Learning [25.65324419553667]
我々は,視覚的特徴と行動生成の統合を強化するために,階層構造を明示的に組み込んだ新しいビジュモータ学習フレームワークである$textbfTriply-Hierarchical Diffusion Policy(textbfH$mathbf3$DP)を紹介した。大規模な実験では、H$3$DPは$mathbf+27.5%の平均相対的な改善を$mathbf44$のシミュレーションタスクで達成し、$mathbf4$の挑戦的な実世界の操作タスクで優れたパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-05-12T17:59:43Z)
Visual Variational Autoencoder Prompt Tuning [20.387933505896388]
本稿では,動的に入力に依存したプロンプトを生成する新しいフレームワークであるV$2$APT(Visual Variational Autoencoder Prompt Tuning)を紹介する。 FGVC, HTA, VTAB-1kベンチマークの実験により, 提案手法は最先端PEFT法より一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-22T04:59:51Z)
OT-VP: Optimal Transport-guided Visual Prompting for Test-Time Adaptation [8.425690424016986]
視覚変換器(ViT)は、表現の学習において顕著な能力を示したが、未知の領域に適用した場合、その性能は損なわれる。我々のアプローチであるOT-VP(Optimal Transport-guided Test-Time Visual Prompting)は、テスト時の迅速な学習を活用して、ターゲットドメインとソースドメインの整合を図り、これらの問題に対処する。 OT-VPは、学習したプロンプトトークンが4つしかなく、3つのスタイリスティックデータセットで最先端のパフォーマンスを上回っている。
論文参考訳（メタデータ） (2024-06-12T18:30:03Z)
Generate then Select: Open-ended Visual Question Answering Guided by World Knowledge [155.81786738036578]
Open-ended Visual Question Answering (VQA)タスクでは、視覚と自然言語の入力をAIモデルが共同で推論する必要がある。 GPT-3のような事前訓練された言語モデル(PLM)がこのタスクに適用され、強力な世界知識源であることが示されている。我々は,世界的知識によって導かれるジェネレータ選択戦略をデプロイする新しいVQAパイプラインであるRASOを提案する。
論文参考訳（メタデータ） (2023-05-30T08:34:13Z)
Towards Understanding and Improving GFlowNet Training [71.85707593318297]
本稿では,学習したサンプリング分布と目標報酬分布を比較するための効率的な評価手法を提案する。本稿では,高解像度のx$,相対的エッジフローポリシーのパラメータ化,新しい軌道バランス目標を提案する。
論文参考訳（メタデータ） (2023-05-11T22:50:41Z)
Multi-Task Imitation Learning for Linear Dynamical Systems [50.124394757116605]
線形システム上での効率的な模倣学習のための表現学習について検討する。学習対象ポリシーによって生成された軌道上の模倣ギャップは、$tildeOleft(frack n_xHN_mathrmshared + frack n_uN_mathrmtargetright)$で制限されている。
論文参考訳（メタデータ） (2022-12-01T00:14:35Z)
Frustratingly Easy Regularization on Representation Can Boost Deep Reinforcement Learning [9.072416458330268]
そこで本研究では,$Q$-networkとその対象である$Q$-networkの学習表現が,理論上,良質な識別可能な表現特性を満たすことを実証する。本稿では,内部表現の明示的正規化を通じて識別可能な表現特性を維持することを目的とした,表現の簡易正規化によるポリシー評価を提案する。 PEERはPyBulletの4つの環境での最先端のパフォーマンス、DMControlの12タスク中9、Atariの26ゲーム中19タスクを実現している。
論文参考訳（メタデータ） (2022-05-29T02:29:32Z)
Pushing the Limits of Simple Pipelines for Few-Shot Learning: External Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文参考訳（メタデータ） (2022-04-15T02:55:58Z)
Federated Reinforcement Learning with Environment Heterogeneity [30.797692838836277]
我々は,フェデレート強化学習(FedRL)問題について検討し,エージェントと環境相互作用の過程で収集した軌跡を共有せずに,$n$エージェントがひとつの方針を協調的に学習する。本稿では,2つの連合RLアルゴリズム, textttQAvg と textttPAvg を提案する。
論文参考訳（メタデータ） (2022-04-06T07:21:00Z)
PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。 Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文参考訳（メタデータ） (2021-02-24T21:12:09Z)
Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文参考訳（メタデータ） (2021-01-06T19:07:31Z)
Nearly Minimax Optimal Reward-free Reinforcement Learning [88.75843804630772]
本稿では、特にバッチ強化学習に適した報酬不要強化学習フレームワークと、複数の報酬関数に対するポリシーを必要とするシナリオについて検討する。 textbfStaged textbfSampling + textbfTruncated textbfPlanning (algoname) という新しい効率的なアルゴリズムを提供しています。
論文参考訳（メタデータ） (2020-10-12T17:51:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。