論文の概要: Value Memory Graph: A Graph-Structured World Model for Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2206.04384v3
- Date: Tue, 2 May 2023 14:15:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 18:14:11.058930
- Title: Value Memory Graph: A Graph-Structured World Model for Offline
Reinforcement Learning
- Title(参考訳): value memory graph:オフライン強化学習のためのグラフ構造世界モデル
- Authors: Deyao Zhu, Li Erran Li, Mohamed Elhoseiny
- Abstract要約: 強化学習法(Reinforcement Learning, RL)は、一般的に、ポリシーを学ぶために環境に直接適用される。
オリジナル環境を抽象化するシンプルで離散的な世界モデルの構築を目指しています。
D4RLベンチマークを用いた実験により,VMGはゴール指向タスクにおいて,最先端のオフラインRLメソッドより優れることが示された。
- 参考スコア(独自算出の注目度): 35.5986167075913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning (RL) methods are typically applied directly in
environments to learn policies. In some complex environments with continuous
state-action spaces, sparse rewards, and/or long temporal horizons, learning a
good policy in the original environments can be difficult. Focusing on the
offline RL setting, we aim to build a simple and discrete world model that
abstracts the original environment. RL methods are applied to our world model
instead of the environment data for simplified policy learning. Our world
model, dubbed Value Memory Graph (VMG), is designed as a directed-graph-based
Markov decision process (MDP) of which vertices and directed edges represent
graph states and graph actions, separately. As state-action spaces of VMG are
finite and relatively small compared to the original environment, we can
directly apply the value iteration algorithm on VMG to estimate graph state
values and figure out the best graph actions. VMG is trained from and built on
the offline RL dataset. Together with an action translator that converts the
abstract graph actions in VMG to real actions in the original environment, VMG
controls agents to maximize episode returns. Our experiments on the D4RL
benchmark show that VMG can outperform state-of-the-art offline RL methods in
several goal-oriented tasks, especially when environments have sparse rewards
and long temporal horizons. Code is available at
https://github.com/TsuTikgiau/ValueMemoryGraph
- Abstract(参考訳): 強化学習(rl)法は通常、ポリシーを学ぶために環境に直接適用される。
連続的な状態-アクション空間、スパース報酬、および/または長い時間軸を持つ複雑な環境では、元の環境で良いポリシーを学ぶのは困難である。
オフラインのRL設定に焦点をあて、元の環境を抽象化するシンプルで離散的な世界モデルの構築を目指している。
簡易なポリシー学習のための環境データの代わりに,RL法を世界モデルに適用した。
我々の世界モデルは、値記憶グラフ(VMG)と呼ばれ、有向グラフベースのマルコフ決定プロセス(MDP)として設計されており、頂点と有向エッジはグラフ状態とグラフ動作を別々に表現する。
VMGのステートアクション空間は、元の環境と比較して有限であり、比較的小さいので、VMGの値反復アルゴリズムを直接適用してグラフ状態の値を推定し、最良のグラフアクションを見出すことができる。
VMGはオフラインのRLデータセットからトレーニングされ、構築される。
VMGの抽象グラフアクションを元の環境の実際のアクションに変換するアクショントランスレータとともに、VMGはエピソードリターンを最大化するエージェントを制御する。
D4RLベンチマークを用いた実験により,VMG はいくつかの目標指向タスクにおいて,特に環境に疎い報酬と長時間の時間的地平線がある場合において,最先端のオフライン RL 手法より優れていることが示された。
コードはhttps://github.com/TsuTikgiau/ValueMemoryGraphで入手できる。
関連論文リスト
- Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。
GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。
実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文 参考訳(メタデータ) (2023-03-07T09:10:34Z) - Graph Backup: Data Efficient Backup Exploiting Markovian Transitions [24.765707880860543]
データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。
本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。
提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
論文 参考訳(メタデータ) (2022-05-31T14:26:00Z) - Implicit SVD for Graph Representation Learning [33.761179632722]
控えめなハードウェアを持つ人には、グラフ表現学習をより計算的に学習しやすいものにします。
我々はSOTAモデルの線形近似を導出し、入出力を計算せずに$mathbfM$のSVDを介して閉形式でモデルを訓練する。
我々のモデルは、様々なグラフ上での競合実証試験性能を示す。
論文 参考訳(メタデータ) (2021-11-11T16:58:17Z) - Graph Robustness Benchmark: Benchmarking the Adversarial Robustness of
Graph Machine Learning [24.500868045285287]
グラフに対する敵対的な攻撃は、グラフ機械学習(GML)モデルの堅牢性にとって大きな脅威となっている。
グラフロバストネスベンチマーク(GRB)を用いて,GMLモデルの対向ロバスト性に対する拡張性,統一性,モジュール性,再現性を備えた評価を行う。
論文 参考訳(メタデータ) (2021-11-08T07:55:13Z) - Non-Markovian Reinforcement Learning using Fractional Dynamics [3.000697999889031]
強化学習(Reinforcement Learning, RL)は、環境と相互作用するエージェントの制御ポリシーを学ぶ技術である。
本稿では,非マルコフ力学を持つシステムに対するモデルベースRL手法を提案する。
このような環境は、人間の生理学、生物学的システム、物質科学、人口動態など、現実世界の多くの応用で一般的である。
論文 参考訳(メタデータ) (2021-07-29T07:35:13Z) - Self-supervised Graph-level Representation Learning with Local and
Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。
GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。
モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文 参考訳(メタデータ) (2021-06-08T05:25:38Z) - Multi-Level Graph Convolutional Network with Automatic Graph Learning
for Hyperspectral Image Classification [63.56018768401328]
HSI分類のための自動グラフ学習法(MGCN-AGL)を用いたマルチレベルグラフ畳み込みネットワーク(GCN)を提案する。
空間的に隣接する領域における重要度を特徴付けるために注意機構を利用することで、最も関連性の高い情報を適応的に組み込んで意思決定を行うことができる。
MGCN-AGLは局所的に生成した表現表現に基づいて画像領域間の長距離依存性を符号化する。
論文 参考訳(メタデータ) (2020-09-19T09:26:20Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。