論文の概要: MapGo: Model-Assisted Policy Optimization for Goal-Oriented Tasks
- arxiv url: http://arxiv.org/abs/2105.06350v1
- Date: Thu, 13 May 2021 15:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-14 14:08:23.985295
- Title: MapGo: Model-Assisted Policy Optimization for Goal-Oriented Tasks
- Title(参考訳): MapGo: 目標指向タスクに対するモデル支援ポリシ最適化
- Authors: Menghui Zhu, Minghuan Liu, Jian Shen, Zhicheng Zhang, Sheng Chen,
Weinan Zhang, Deheng Ye, Yong Yu, Qiang Fu, Wei Yang
- Abstract要約: 目標志向の強化学習では、過去の経験から生の目標を緩和して、エージェントに後見能力を提供することが、報酬空間の問題に対する主要な解決策である。
FGI(Foresight Goal Inference)は、学習されたダイナミックスモデルで未来を見据えて、目標をリラベルする新しいラベリング戦略である。
サンプル効率を向上させるため,政策学習のためのシミュレーション軌道を生成するために動的モデルを提案する。
- 参考スコア(独自算出の注目度): 37.529217646431825
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In Goal-oriented Reinforcement learning, relabeling the raw goals in past
experience to provide agents with hindsight ability is a major solution to the
reward sparsity problem. In this paper, to enhance the diversity of relabeled
goals, we develop FGI (Foresight Goal Inference), a new relabeling strategy
that relabels the goals by looking into the future with a learned dynamics
model. Besides, to improve sample efficiency, we propose to use the dynamics
model to generate simulated trajectories for policy training. By integrating
these two improvements, we introduce the MapGo framework (Model-Assisted Policy
Optimization for Goal-oriented tasks). In our experiments, we first show the
effectiveness of the FGI strategy compared with the hindsight one, and then
show that the MapGo framework achieves higher sample efficiency when compared
to model-free baselines on a set of complicated tasks.
- Abstract(参考訳): 目標志向の強化学習では、過去の経験から生の目標を緩和して、エージェントに後見能力を提供することが、報酬空間の問題に対する主要な解決策である。
本稿では,relabeled目標の多様性を高めるために,fgi (foresight goal inference) という新しいrelabeling戦略を開発した。
また,サンプル効率を向上させるため,政策学習のためのシミュレーション軌道を生成するために動的モデルを提案する。
これら2つの改善を統合することで、mapgoフレームワーク(目標指向タスクに対するモデル支援ポリシー最適化)を導入します。
実験では,まずfgi戦略の有効性を示すとともに,複雑なタスク群におけるモデルフリーのベースラインと比較して,mapgoフレームワークが高いサンプル効率を達成することを示す。
関連論文リスト
- Parameter-Efficient Active Learning for Foundational models [7.799711162530711]
基礎的な視覚変換器モデルは、多くの視覚タスクにおいて、驚くほどのショットパフォーマンスを示している。
本研究は,アクティブラーニング(AL)フレームワークにおけるパラメータ効率の良い微調整手法の適用に関する新たな研究である。
論文 参考訳(メタデータ) (2024-06-13T16:30:32Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: An Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
特に、勾配に基づく最適化から理論的な枠組みや学習手法を借用し、改良された戦略を設計する。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z) - Reparameterized Policy Learning for Multimodal Trajectory Optimization [61.13228961771765]
本研究では,高次元連続行動空間における強化学習のためのパラメータ化政策の課題について検討する。
本稿では,連続RLポリシーを最適軌道の生成モデルとしてモデル化する原理的フレームワークを提案する。
本稿では,マルチモーダルポリシーパラメータ化と学習世界モデルを活用した実用的モデルベースRL手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T09:05:46Z) - DST: Dynamic Substitute Training for Data-free Black-box Attack [79.61601742693713]
そこで本研究では,対象モデルからより高速に学習するための代用モデルの促進を目的とした,新しい動的代用トレーニング攻撃手法を提案する。
タスク駆動型グラフに基づく構造情報学習の制約を導入し、生成したトレーニングデータの質を向上させる。
論文 参考訳(メタデータ) (2022-04-03T02:29:11Z) - Efficient Reinforced Feature Selection via Early Stopping Traverse
Strategy [36.890295071860166]
単エージェントモンテカルロ型強化特徴選択法(MCRFS)を提案する。
また,早期停止(ES)戦略と報酬レベルインタラクティブ(RI)戦略の2つの効率改善戦略を提案する。
論文 参考訳(メタデータ) (2021-09-29T03:51:13Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Hindsight Expectation Maximization for Goal-conditioned Reinforcement
Learning [26.631740480100724]
本稿では,目標条件付きRLのためのグラフィカルモデルフレームワークを提案する。
Eステップは、HERのような「後見の学習」技法が、極めてスパースなゴール条件の報酬を扱う方法の自然な解釈を提供する。
Mステップは、教師付き学習更新にポリシー最適化を還元し、画像などの高次元入力に対するエンドツーエンドトレーニングを大幅に安定化する。
論文 参考訳(メタデータ) (2020-06-13T03:25:31Z) - PlanGAN: Model-based Planning With Sparse Rewards and Multiple Goals [14.315501760755609]
PlanGANは、スパース報酬のある環境におけるマルチゴールタスクを解くためのモデルベースのアルゴリズムである。
本研究は,PlanGANが4~8倍の効率で,同等の性能を達成できることを示唆する。
論文 参考訳(メタデータ) (2020-06-01T12:53:09Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。