論文の概要: Do Transformer World Models Give Better Policy Gradients?
- arxiv url: http://arxiv.org/abs/2402.05290v1
- Date: Wed, 7 Feb 2024 22:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 17:08:34.308005
- Title: Do Transformer World Models Give Better Policy Gradients?
- Title(参考訳): トランスフォーマーワールドモデルはポリシーのグラデーションを改善するか?
- Authors: Michel Ma, Tianwei Ni, Clement Gehring, Pierluca D'Oro, Pierre-Luc
Bacon
- Abstract要約: Actions World Models (AWMs) は、勾配伝播のためのより直接的なルートを提供するように設計されている。
AWMsはシミュレータ自体と比較してナビゲートが容易な最適化景観を生成することができることを示す。
この特性により、トランスフォーマーのAWMは、現実的な長距離タスクにおいて、競合するベースラインよりも優れたポリシーを作成できる。
- 参考スコア(独自算出の注目度): 13.360755226969676
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A natural approach for reinforcement learning is to predict future rewards by
unrolling a neural network world model, and to backpropagate through the
resulting computational graph to learn a policy. However, this method often
becomes impractical for long horizons since typical world models induce
hard-to-optimize loss landscapes. Transformers are known to efficiently
propagate gradients overlong horizons: could they be the solution to this
problem? Surprisingly, we show that commonly-used transformer world models
produce circuitous gradient paths, which can be detrimental to long-range
policy gradients. To tackle this challenge, we propose a class of world models
called Actions World Models (AWMs), designed to provide more direct routes for
gradient propagation. We integrate such AWMs into a policy gradient framework
that underscores the relationship between network architectures and the policy
gradient updates they inherently represent. We demonstrate that AWMs can
generate optimization landscapes that are easier to navigate even when compared
to those from the simulator itself. This property allows transformer AWMs to
produce better policies than competitive baselines in realistic long-horizon
tasks.
- Abstract(参考訳): 強化学習の自然なアプローチは、ニューラルネットワークの世界モデルをアンロールすることで将来の報酬を予測し、結果の計算グラフをバックプロパゲートしてポリシーを学ぶことである。
しかし、典型的な世界モデルは損失景観を最適化するのが困難であるため、この方法は長い地平線にとって実用的ではないことが多い。
変圧器は、水平線上の勾配を効率的に伝播することが知られている。
驚くべきことに、一般的に使用されるトランスフォーマーワールドモデルは、長距離のポリシー勾配に有害な回路勾配パスを生成する。
この課題に取り組むために,我々は,勾配伝播のためのより直接的な経路を提供するために設計されたactions world model(awms)と呼ばれる世界モデルクラスを提案する。
このようなAWMを、ネットワークアーキテクチャとそれらが本質的に表すポリシー勾配更新の関係を基盤とするポリシー勾配フレームワークに統合する。
AWMsはシミュレータ自体と比較してナビゲートが容易な最適化景観を生成することができることを示す。
この特性により、トランスフォーマーのAWMは、現実的な長距離タスクの競争ベースラインよりも優れたポリシーを作成できる。
関連論文リスト
- Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - One-shot World Models Using a Transformer Trained on a Synthetic Prior [37.027893127637036]
ワンショット世界モデル(英: One-Shot World Model、OSWM)は、純粋に合成データからコンテキスト内学習形式で学習されるトランスフォーマー世界モデルである。
OSWMは、シンプルなグリッド世界のダイナミクスや、CartPoleのジム、カスタムコントロール環境に迅速に適応できる。
論文 参考訳(メタデータ) (2024-09-21T09:39:32Z) - PWM: Policy Learning with Large World Models [37.678858748473196]
強化学習(RL)は複雑なタスクにおいて印象的な結果を得たが、異なる実施形態を持つマルチタスク設定に苦戦している。
我々は,大規模マルチタスク世界モデルから連続制御ポリシを学習する新しいモデルベースRLアルゴリズムである,大規模世界モデルを用いたポリシー学習(PWM)を紹介する。
論文 参考訳(メタデータ) (2024-07-02T17:47:03Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - Rethinking Decision Transformer via Hierarchical Reinforcement Learning [54.3596066989024]
決定変換器(Decision Transformer, DT)は、強化学習(RL)における変換器アーキテクチャの最近の進歩を活用する革新的なアルゴリズムである。
本稿では,階層RLのレンズを用いたシーケンシャル意思決定のための汎用シーケンスモデリングフレームワークを提案する。
DTは、高レベルかつ低レベルなポリシーを選択することで、このフレームワークの特別なケースとして現れ、これらの選択の潜在的な失敗について議論する。
論文 参考訳(メタデータ) (2023-11-01T03:32:13Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Transformer-based World Models Are Happy With 100k Interactions [0.4588028371034407]
サンプル効率の良い世界モデルを構築するために,実世界のエピソードにトランスフォーマーを自己回帰的に適用する。
トランスにより、圧縮されたリカレント状態を通して見るのではなく、我々の世界モデルが以前の状態に直接アクセスすることができる。
Transformer-XLアーキテクチャを利用することで、計算効率を保ちながら長期的な依存関係を学習することができる。
論文 参考訳(メタデータ) (2023-03-13T13:43:59Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - When Will Generative Adversarial Imitation Learning Algorithms Attain
Global Convergence [56.40794592158596]
我々は,GAIL(Generative Adversarial mimicion Learning)を一般MDPおよび非線形報酬関数クラスで研究した。
これは世界収束のためのGAILに関する最初の体系的理論的研究である。
論文 参考訳(メタデータ) (2020-06-24T06:24:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。