Fugu-MT 論文翻訳(概要): Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning

論文の概要: Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2206.04384v1
Date: Thu, 9 Jun 2022 09:51:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-10 13:34:35.915706
Title: Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning
Title（参考訳）: value memory graph:オフライン強化学習のためのグラフ構造世界モデル
Authors: Deyao Zhu, Li Erran Li, Mohamed Elhoseiny
Abstract要約: モデルに基づく強化学習の世界モデルは、通常非現実的な長期水平予測問題に直面している。グラフ構造化世界モデルにおける最近の研究は、環境を表現するグラフを構築することによって、長い水平推論能力を向上させる。我々は、有向グラフに基づくマルコフ決定プロセスを構築することにより、オフライン強化学習におけるグラフ構造化世界モデルの設計を行う。
参考スコア（独自算出の注目度）: 35.5986167075913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models in model-based reinforcement learning usually face unrealistic long-time-horizon prediction issues due to compounding errors as the prediction errors accumulate over timesteps. Recent works in graph-structured world models improve the long-horizon reasoning ability via building a graph to represent the environment, but they are designed in a goal-conditioned setting and cannot guide the agent to maximize episode returns in a traditional reinforcement learning setting without externally given target states. To overcome this limitation, we design a graph-structured world model in offline reinforcement learning by building a directed-graph-based Markov decision process (MDP) with rewards allocated to each directed edge as an abstraction of the original continuous environment. As our world model has small and finite state/action spaces compared to the original environment, value iteration can be easily applied here to estimate state values on the graph and figure out the best future. Unlike previous graph-structured world models that requires externally provided targets, our world model, dubbed Value Memory Graph (VMG), can provide the desired targets with high values by itself. VMG can be used to guide low-level goal-conditioned policies that are trained via supervised learning to maximize episode returns. Experiments on the D4RL benchmark show that VMG can outperform state-of-the-art methods in several tasks where long horizon reasoning ability is crucial. Code will be made publicly available.
Abstract（参考訳）: モデルに基づく強化学習における世界モデルは、通常、予測誤差が時間ステップに蓄積するにつれて、複合エラーによる非現実的な長期ホリゾン予測問題に直面する。グラフ構造化世界モデルにおける最近の研究は、環境を表現するためのグラフを構築することで、長期的推論能力を向上させるが、それらは目標条件で設計されており、外部に与えられた目標状態のない伝統的な強化学習環境で、エピソードリターンを最大化するためのエージェントを誘導することはできない。この制限を克服するために,オフライン強化学習におけるグラフ構造世界モデルの設計を行い,各有向エッジに報奨を付与した有向グラフベースマルコフ決定プロセス(mdp)を,元の連続環境の抽象化として構築する。私たちの世界モデルは、元の環境と比較して、小さくて有限な状態/動作空間を持っているので、値の反復は、グラフの状態値を推定し、最良の未来を見出すために簡単に適用できます。外部から提供されたターゲットを必要とする従来のグラフ構造化の世界モデルとは異なり、VMG(Value Memory Graph)と呼ばれる私たちの世界モデルは、それ自体で高い値で望ましいターゲットを提供することができます。 VMGは,教師付き学習を通じてトレーニングされた低レベルの目標条件ポリシをガイドして,エピソードリターンの最大化に使用することができる。 D4RLベンチマークの実験により、VMGは長い地平線推論能力が不可欠であるいくつかのタスクにおいて最先端のメソッドより優れていることが示された。コードは公開される予定だ。

関連論文リスト

G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。 RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文参考訳（メタデータ） (2025-05-24T04:33:41Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文参考訳（メタデータ） (2024-10-13T12:57:08Z)
Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文参考訳（メタデータ） (2024-09-24T12:24:07Z)
SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文参考訳（メタデータ） (2024-07-29T17:59:50Z)
GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文参考訳（メタデータ） (2024-07-10T08:20:47Z)
Highway Graph to Accelerate Reinforcement Learning [18.849312069946993]
状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。ハイウェイグラフをRLに統合することにより、初期の段階でRLトレーニングを著しく加速させることができる。ディープニューラルネットワークベースのエージェントは、ハイウェイグラフを使用してトレーニングされる。
論文参考訳（メタデータ） (2024-05-20T02:09:07Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。 GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文参考訳（メタデータ） (2023-03-07T09:10:34Z)
Graph Backup: Data Efficient Backup Exploiting Markovian Transitions [24.765707880860543]
データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
論文参考訳（メタデータ） (2022-05-31T14:26:00Z)
Self-supervised Graph-level Representation Learning with Local and Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。 GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文参考訳（メタデータ） (2021-06-08T05:25:38Z)
Heuristic Semi-Supervised Learning for Graph Generation Inspired by Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2020-06-10T14:48:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。