論文の概要: Value Memory Graph: A Graph-Structured World Model for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04384v1
- Date: Thu, 9 Jun 2022 09:51:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-10 13:34:35.915706
- Title: Value Memory Graph: A Graph-Structured World Model for Offline
Reinforcement Learning
- Title(参考訳): value memory graph:オフライン強化学習のためのグラフ構造世界モデル
- Authors: Deyao Zhu, Li Erran Li, Mohamed Elhoseiny
- Abstract要約: モデルに基づく強化学習の世界モデルは、通常非現実的な長期水平予測問題に直面している。
グラフ構造化世界モデルにおける最近の研究は、環境を表現するグラフを構築することによって、長い水平推論能力を向上させる。
我々は、有向グラフに基づくマルコフ決定プロセスを構築することにより、オフライン強化学習におけるグラフ構造化世界モデルの設計を行う。
- 参考スコア(独自算出の注目度): 35.5986167075913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models in model-based reinforcement learning usually face unrealistic
long-time-horizon prediction issues due to compounding errors as the prediction
errors accumulate over timesteps. Recent works in graph-structured world models
improve the long-horizon reasoning ability via building a graph to represent
the environment, but they are designed in a goal-conditioned setting and cannot
guide the agent to maximize episode returns in a traditional reinforcement
learning setting without externally given target states. To overcome this
limitation, we design a graph-structured world model in offline reinforcement
learning by building a directed-graph-based Markov decision process (MDP) with
rewards allocated to each directed edge as an abstraction of the original
continuous environment. As our world model has small and finite state/action
spaces compared to the original environment, value iteration can be easily
applied here to estimate state values on the graph and figure out the best
future. Unlike previous graph-structured world models that requires externally
provided targets, our world model, dubbed Value Memory Graph (VMG), can provide
the desired targets with high values by itself. VMG can be used to guide
low-level goal-conditioned policies that are trained via supervised learning to
maximize episode returns. Experiments on the D4RL benchmark show that VMG can
outperform state-of-the-art methods in several tasks where long horizon
reasoning ability is crucial. Code will be made publicly available.
- Abstract(参考訳): モデルに基づく強化学習における世界モデルは、通常、予測誤差が時間ステップに蓄積するにつれて、複合エラーによる非現実的な長期ホリゾン予測問題に直面する。
グラフ構造化世界モデルにおける最近の研究は、環境を表現するためのグラフを構築することで、長期的推論能力を向上させるが、それらは目標条件で設計されており、外部に与えられた目標状態のない伝統的な強化学習環境で、エピソードリターンを最大化するためのエージェントを誘導することはできない。
この制限を克服するために,オフライン強化学習におけるグラフ構造世界モデルの設計を行い,各有向エッジに報奨を付与した有向グラフベースマルコフ決定プロセス(mdp)を,元の連続環境の抽象化として構築する。
私たちの世界モデルは、元の環境と比較して、小さくて有限な状態/動作空間を持っているので、値の反復は、グラフの状態値を推定し、最良の未来を見出すために簡単に適用できます。
外部から提供されたターゲットを必要とする従来のグラフ構造化の世界モデルとは異なり、VMG(Value Memory Graph)と呼ばれる私たちの世界モデルは、それ自体で高い値で望ましいターゲットを提供することができます。
VMGは,教師付き学習を通じてトレーニングされた低レベルの目標条件ポリシをガイドして,エピソードリターンの最大化に使用することができる。
D4RLベンチマークの実験により、VMGは長い地平線推論能力が不可欠であるいくつかのタスクにおいて最先端のメソッドより優れていることが示された。
コードは公開される予定だ。
関連論文リスト
- Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。
本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。
最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文 参考訳(メタデータ) (2024-10-13T12:57:08Z) - Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。
我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文 参考訳(メタデータ) (2024-07-29T17:59:50Z) - GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。
GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文 参考訳(メタデータ) (2024-07-10T08:20:47Z) - Highway Graph to Accelerate Reinforcement Learning [18.849312069946993]
状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。
ハイウェイグラフをRLに統合することにより、初期の段階でRLトレーニングを著しく加速させることができる。
ディープニューラルネットワークベースのエージェントは、ハイウェイグラフを使用してトレーニングされる。
論文 参考訳(メタデータ) (2024-05-20T02:09:07Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - Graph Backup: Data Efficient Backup Exploiting Markovian Transitions [24.765707880860543]
データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
論文 参考訳(メタデータ) (2022-05-31T14:26:00Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。