Fugu-MT 論文翻訳(概要): Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning

論文の概要: Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2206.04384v3
Date: Tue, 2 May 2023 14:15:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 18:14:11.058930
Title: Value Memory Graph: A Graph-Structured World Model for Offline Reinforcement Learning
Title（参考訳）: value memory graph:オフライン強化学習のためのグラフ構造世界モデル
Authors: Deyao Zhu, Li Erran Li, Mohamed Elhoseiny
Abstract要約: 強化学習法(Reinforcement Learning, RL)は、一般的に、ポリシーを学ぶために環境に直接適用される。オリジナル環境を抽象化するシンプルで離散的な世界モデルの構築を目指しています。 D4RLベンチマークを用いた実験により,VMGはゴール指向タスクにおいて,最先端のオフラインRLメソッドより優れることが示された。
参考スコア（独自算出の注目度）: 35.5986167075913
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reinforcement Learning (RL) methods are typically applied directly in environments to learn policies. In some complex environments with continuous state-action spaces, sparse rewards, and/or long temporal horizons, learning a good policy in the original environments can be difficult. Focusing on the offline RL setting, we aim to build a simple and discrete world model that abstracts the original environment. RL methods are applied to our world model instead of the environment data for simplified policy learning. Our world model, dubbed Value Memory Graph (VMG), is designed as a directed-graph-based Markov decision process (MDP) of which vertices and directed edges represent graph states and graph actions, separately. As state-action spaces of VMG are finite and relatively small compared to the original environment, we can directly apply the value iteration algorithm on VMG to estimate graph state values and figure out the best graph actions. VMG is trained from and built on the offline RL dataset. Together with an action translator that converts the abstract graph actions in VMG to real actions in the original environment, VMG controls agents to maximize episode returns. Our experiments on the D4RL benchmark show that VMG can outperform state-of-the-art offline RL methods in several goal-oriented tasks, especially when environments have sparse rewards and long temporal horizons. Code is available at https://github.com/TsuTikgiau/ValueMemoryGraph
Abstract（参考訳）: 強化学習(rl)法は通常、ポリシーを学ぶために環境に直接適用される。連続的な状態-アクション空間、スパース報酬、および/または長い時間軸を持つ複雑な環境では、元の環境で良いポリシーを学ぶのは困難である。オフラインのRL設定に焦点をあて、元の環境を抽象化するシンプルで離散的な世界モデルの構築を目指している。簡易なポリシー学習のための環境データの代わりに,RL法を世界モデルに適用した。我々の世界モデルは、値記憶グラフ(VMG)と呼ばれ、有向グラフベースのマルコフ決定プロセス(MDP)として設計されており、頂点と有向エッジはグラフ状態とグラフ動作を別々に表現する。 VMGのステートアクション空間は、元の環境と比較して有限であり、比較的小さいので、VMGの値反復アルゴリズムを直接適用してグラフ状態の値を推定し、最良のグラフアクションを見出すことができる。 VMGはオフラインのRLデータセットからトレーニングされ、構築される。 VMGの抽象グラフアクションを元の環境の実際のアクションに変換するアクショントランスレータとともに、VMGはエピソードリターンを最大化するエージェントを制御する。 D4RLベンチマークを用いた実験により,VMG はいくつかの目標指向タスクにおいて,特に環境に疎い報酬と長時間の時間的地平線がある場合において,最先端のオフライン RL 手法より優れていることが示された。コードはhttps://github.com/TsuTikgiau/ValueMemoryGraphで入手できる。

関連論文リスト

G1: Teaching LLMs to Reason on Graphs with Reinforcement Learning [58.73279333365234]
合成グラフ理論タスクにおける強化学習(RL)はグラフ推論能力を著しく拡張することができる。 RL on ErdosでG1はグラフ推論の大幅な改善を実現し、微調整された3BモデルはQwen2.5-72B-Instruct(24倍)よりも優れています。我々の研究は、グラフ理論上のRLでLLMを微調整することで、強力なグラフ推論器を構築するための効率的でスケーラブルな経路を提供する。
論文参考訳（メタデータ） (2025-05-24T04:33:41Z)
Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次のトークン予測は,大規模言語モデル(LLM)のトレーニングの基本原則であるシーングラフデータセット上で,教師付き微調整(SFT)により学習したマルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。ノードレベルの報酬、エッジレベルの報酬、フォーマットの整合性報酬を統合したグラフ中心の報酬関数を設計する。
論文参考訳（メタデータ） (2025-04-18T10:46:22Z)
Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文参考訳（メタデータ） (2024-10-13T12:57:08Z)
Bridging Environments and Language with Rendering Functions and Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文参考訳（メタデータ） (2024-09-24T12:24:07Z)
SAPG: Split and Aggregate Policy Gradients [37.433915947580076]
本稿では,大規模環境をチャンクに分割し,重要サンプリングにより融合させることにより,大規模環境を効果的に活用できる新しいオンラインRLアルゴリズムを提案する。我々のアルゴリズムはSAPGと呼ばれ、バニラPPOや他の強力なベースラインが高い性能を達成できない様々な困難環境において、非常に高い性能を示す。
論文参考訳（メタデータ） (2024-07-29T17:59:50Z)
GLBench: A Comprehensive Benchmark for Graph with Large Language Models [41.89444363336435]
GLBenchは、教師付きシナリオとゼロショットシナリオの両方でGraphLLMメソッドを評価するための最初の包括的なベンチマークである。 GLBenchはグラフニューラルネットワークのような従来のベースラインとともに、GraphLLMメソッドのさまざまなカテゴリを公平かつ徹底的に評価する。
論文参考訳（メタデータ） (2024-07-10T08:20:47Z)
Highway Graph to Accelerate Reinforcement Learning [18.849312069946993]
状態遷移をモデル化するための新しいグラフ構造であるハイウェイグラフを提案する。ハイウェイグラフをRLに統合することにより、初期の段階でRLトレーニングを著しく加速させることができる。ディープニューラルネットワークベースのエージェントは、ハイウェイグラフを使用してトレーニングされる。
論文参考訳（メタデータ） (2024-05-20T02:09:07Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
Graph Decision Transformer [83.76329715043205]
グラフ決定変換器(GDT)は、新しいオフライン強化学習手法である。 GDTは入力シーケンスを因果グラフにモデル化し、基本的な異なる概念間の潜在的な依存関係をキャプチャする。実験の結果,GDT は画像ベース Atari と OpenAI の Gym 上で,最先端のオフライン RL 手法の性能と一致しているか,上回っていることがわかった。
論文参考訳（メタデータ） (2023-03-07T09:10:34Z)
Graph Backup: Data Efficient Backup Exploiting Markovian Transitions [24.765707880860543]
データ効率のよいRLの鍵は、良い値の推定であるが、現在の手法では、環境から収集された軌道データの構造を完全に活用できない。本稿では,MDPの遷移データをグラフとして扱い,新しいバックアップ演算子であるグラフバックアップを定義する。提案手法は,一般的な値ベース手法と組み合わせることで,データ効率のよいRLベンチマークスイート上での一段階法と多段階法よりも性能が向上する。
論文参考訳（メタデータ） (2022-05-31T14:26:00Z)
Self-supervised Graph-level Representation Learning with Local and Global Structure [71.45196938842608]
自己教師付き全グラフ表現学習のためのローカル・インスタンスとグローバル・セマンティック・ラーニング(GraphLoG)という統合フレームワークを提案する。 GraphLoGは、局所的な類似点の保存に加えて、グローバルなセマンティッククラスタをキャプチャする階層的なプロトタイプも導入している。モデル学習のための効率的なオンライン予測最大化(EM)アルゴリズムがさらに開発された。
論文参考訳（メタデータ） (2021-06-08T05:25:38Z)
Heuristic Semi-Supervised Learning for Graph Generation Inspired by Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文参考訳（メタデータ） (2020-06-10T14:48:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。