論文の概要: Value Memory Graph: A Graph-Structured World Model for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04384v1
- Date: Thu, 9 Jun 2022 09:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:34:35.915706
- Title: Value Memory Graph: A Graph-Structured World Model for Offline
Reinforcement Learning
- Title(参考訳): value memory graph:オフライン強化学習のためのグラフ構造世界モデル
- Authors: Deyao Zhu, Li Erran Li, Mohamed Elhoseiny
- Abstract要約: モデルに基づく強化学習の世界モデルは、通常非現実的な長期水平予測問題に直面している。
グラフ構造化世界モデルにおける最近の研究は、環境を表現するグラフを構築することによって、長い水平推論能力を向上させる。
我々は、有向グラフに基づくマルコフ決定プロセスを構築することにより、オフライン強化学習におけるグラフ構造化世界モデルの設計を行う。
- 参考スコア(独自算出の注目度): 35.5986167075913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models in model-based reinforcement learning usually face unrealistic
long-time-horizon prediction issues due to compounding errors as the prediction
errors accumulate over timesteps. Recent works in graph-structured world models
improve the long-horizon reasoning ability via building a graph to represent
the environment, but they are designed in a goal-conditioned setting and cannot
guide the agent to maximize episode returns in a traditional reinforcement
learning setting without externally given target states. To overcome this
limitation, we design a graph-structured world model in offline reinforcement
learning by building a directed-graph-based Markov decision process (MDP) with
rewards allocated to each directed edge as an abstraction of the original
continuous environment. As our world model has small and finite state/action
spaces compared to the original environment, value iteration can be easily
applied here to estimate state values on the graph and figure out the best
future. Unlike previous graph-structured world models that requires externally
provided targets, our world model, dubbed Value Memory Graph (VMG), can provide
the desired targets with high values by itself. VMG can be used to guide
low-level goal-conditioned policies that are trained via supervised learning to
maximize episode returns. Experiments on the D4RL benchmark show that VMG can
outperform state-of-the-art methods in several tasks where long horizon
reasoning ability is crucial. Code will be made publicly available.
- Abstract(参考訳): モデルに基づく強化学習における世界モデルは、通常、予測誤差が時間ステップに蓄積するにつれて、複合エラーによる非現実的な長期ホリゾン予測問題に直面する。
グラフ構造化世界モデルにおける最近の研究は、環境を表現するためのグラフを構築することで、長期的推論能力を向上させるが、それらは目標条件で設計されており、外部に与えられた目標状態のない伝統的な強化学習環境で、エピソードリターンを最大化するためのエージェントを誘導することはできない。
この制限を克服するために,オフライン強化学習におけるグラフ構造世界モデルの設計を行い,各有向エッジに報奨を付与した有向グラフベースマルコフ決定プロセス(mdp)を,元の連続環境の抽象化として構築する。
私たちの世界モデルは、元の環境と比較して、小さくて有限な状態/動作空間を持っているので、値の反復は、グラフの状態値を推定し、最良の未来を見出すために簡単に適用できます。
外部から提供されたターゲットを必要とする従来のグラフ構造化の世界モデルとは異なり、VMG(Value Memory Graph)と呼ばれる私たちの世界モデルは、それ自体で高い値で望ましいターゲットを提供することができます。
VMGは,教師付き学習を通じてトレーニングされた低レベルの目標条件ポリシをガイドして,エピソードリターンの最大化に使用することができる。
D4RLベンチマークの実験により、VMGは長い地平線推論能力が不可欠であるいくつかのタスクにおいて最先端のメソッドより優れていることが示された。
コードは公開される予定だ。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - Graph Backup: Data Efficient Backup Exploiting Markovian Transitions [24.765707880860543]
データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
論文 参考訳(メタデータ) (2022-05-31T14:26:00Z) - Implicit SVD for Graph Representation Learning [33.761179632722]
控えめなハードウェアを持つ人には、グラフ表現学習をより計算的に学習しやすいものにします。
我々はSOTAモデルの線形近似を導出し、入出力を計算せずに$mathbfM$のSVDを介して閉形式でモデルを訓練する。
我々のモデルは、様々なグラフ上での競合実証試験性能を示す。
論文 参考訳(メタデータ) (2021-11-11T16:58:17Z) - Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of
Graph Machine Learning [24.500868045285287]
グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。
グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
論文 参考訳(メタデータ) (2021-11-08T07:55:13Z) - Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。
本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。
このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文 参考訳(メタデータ) (2021-07-29T07:35:13Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。