論文の概要: World Model as a Graph: Learning Latent Landmarks for Planning
- arxiv url: http://arxiv.org/abs/2011.12491v3
- Date: Wed, 30 Jun 2021 21:00:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 02:48:21.104187
- Title: World Model as a Graph: Learning Latent Landmarks for Planning
- Title(参考訳): グラフとしての世界モデル: 計画のための潜在ランドマークを学習する
- Authors: Lunjun Zhang, Ge Yang, Bradly C. Stadie
- Abstract要約: 計画は人間の知性の目印です。
著名なフレームワークであるModel-Based RLは、世界モデルを学び、ステップバイステップの仮想ロールアウトを使って計画する。
本稿では,スパースな多段階遷移からなるグラフ構造化世界モデルを学習することを提案する。
- 参考スコア(独自算出の注目度): 12.239590266108115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning - the ability to analyze the structure of a problem in the large and
decompose it into interrelated subproblems - is a hallmark of human
intelligence. While deep reinforcement learning (RL) has shown great promise
for solving relatively straightforward control tasks, it remains an open
problem how to best incorporate planning into existing deep RL paradigms to
handle increasingly complex environments. One prominent framework, Model-Based
RL, learns a world model and plans using step-by-step virtual rollouts. This
type of world model quickly diverges from reality when the planning horizon
increases, thus struggling at long-horizon planning. How can we learn world
models that endow agents with the ability to do temporally extended reasoning?
In this work, we propose to learn graph-structured world models composed of
sparse, multi-step transitions. We devise a novel algorithm to learn latent
landmarks that are scattered (in terms of reachability) across the goal space
as the nodes on the graph. In this same graph, the edges are the reachability
estimates distilled from Q-functions. On a variety of high-dimensional
continuous control tasks ranging from robotic manipulation to navigation, we
demonstrate that our method, named L3P, significantly outperforms prior work,
and is oftentimes the only method capable of leveraging both the robustness of
model-free RL and generalization of graph-search algorithms. We believe our
work is an important step towards scalable planning in reinforcement learning.
- Abstract(参考訳): 計画 — 問題の構造を大規模に分析し、関連するサブプロブレムに分解する能力 – は、人間の知性の目印である。
深層強化学習(英語版)(RL)は比較的単純な制御タスクを解くことに大きな期待を示しているが、より複雑な環境に対処するために既存の深層RLパラダイムにプランニングを組み込む方法がオープンな問題である。
著名なフレームワークであるモデルベースのrlは、ステップバイステップの仮想ロールアウトを使って世界モデルと計画を学ぶ。
この種の世界モデルは計画の地平線が大きくなるとすぐに現実から逸脱し、長期計画に苦しむ。
時間的拡張推論を行う能力を持つエージェントを養う世界モデルをどのように学べるか?
本研究では,分散多段階遷移からなるグラフ構造世界モデルを学ぶことを提案する。
グラフ上のノードとして(到達可能性の観点から)目標空間に散在する潜在ランドマークを学習するための新しいアルゴリズムを考案する。
このグラフでは、エッジはQ関数から抽出された到達可能性の推定値である。
ロボット操作からナビゲーションまで,多種多様な高次元連続制御タスクにおいて,我々の手法であるL3Pが先行作業を大幅に上回っており,モデルフリーRLの堅牢性とグラフ検索アルゴリズムの一般化を両立できる唯一の方法であることを示す。
私たちは、強化学習におけるスケーラブルな計画への重要なステップであると考えています。
関連論文リスト
- Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models [31.509112804985133]
強化学習(Reinforcement Learning, RL)は、試行錯誤と最適制御を通じてポリシーを学習し、学習または既知の力学モデルを用いてアクションを計画する。
異なる品質のデータセットを用いて、異なるRLおよび制御に基づく手法の性能を系統的に解析する。
モデルベースプランニングは,新しい環境レイアウト,トラジェクトリー縫合,データ効率などへの一般化に優れる。
論文 参考訳(メタデータ) (2025-02-20T18:39:41Z) - A New View on Planning in Online Reinforcement Learning [19.35031543927374]
本稿では,背景計画を用いたモデルに基づく強化学習への新たなアプローチについて検討する。
GSPアルゴリズムは抽象空間から様々な基礎学習者が異なる領域でより高速に学習できるような方法で価値を伝播することができることを示す。
論文 参考訳(メタデータ) (2024-06-03T17:45:19Z) - Can Graph Learning Improve Planning in LLM-based Agents? [61.47027387839096]
言語エージェントにおけるタスクプランニングは、大規模言語モデル(LLM)の開発とともに重要な研究トピックとして浮上している。
本稿では,課題計画のためのグラフ学習に基づく手法について検討する。
我々のグラフ学習への関心は、注意のバイアスと自己回帰的損失が、グラフ上の意思決定を効果的にナビゲートするLLMの能力を妨げているという理論的な発見に起因している。
論文 参考訳(メタデータ) (2024-05-29T14:26:24Z) - Forecaster: Towards Temporally Abstract Tree-Search Planning from Pixels [42.275164872809746]
Forecasterは、階層的な強化学習アプローチで、高いレベルの目標を計画する。
Forecasterは、トランジッションのダイナミクスを抽象レベルでモデル化することで、環境の抽象モデルを学ぶ。
次に、この世界モデルを使用して、ツリー探索計画手順を通じて最適なハイレベルな目標を選択する。
論文 参考訳(メタデータ) (2023-10-16T01:13:26Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Graph Value Iteration [35.87805182676444]
ディープ強化学習(Dep Reinforcement Learning, RL)は、2人のプレイヤーによるゲームや科学的な発見など、様々な検索領域で成功している。
最大の難点は、学習フレームワークが解決計画を見つけない限り、報酬信号がゼロであることである。
本稿では,グラフ探索をグラフ値繰り返しで拡張し,ハードプランニングインスタンスを解くドメイン非依存の手法を提案する。
論文 参考訳(メタデータ) (2022-09-20T10:45:03Z) - Model-Based Reinforcement Learning via Latent-Space Collocation [110.04005442935828]
我々は、行動だけでなく、状態の順序を計画することで、長期的タスクの解決がより容易であると主張する。
我々は、学習された潜在状態空間モデルを利用して、画像に基づく設定に最適な制御文献における長い水平タスクに対する良い結果を示すコロケーションの概念を適応させる。
論文 参考訳(メタデータ) (2021-06-24T17:59:18Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - Evolutionary Planning in Latent Space [7.863826008567604]
プランニングは、いくつかの望ましい特性を持つ強化学習の強力なアプローチである。
我々は、ラテントスペースにおける進化的計画を可能にする世界モデルを学ぶ。
ランダムなポリシーからのロールアウトでブートストラップし、より正確な計画ポリシーからのロールアウトで反復的に修正することで、世界のモデルを構築する方法を示します。
論文 参考訳(メタデータ) (2020-11-23T09:21:30Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Graph Ordering: Towards the Optimal by Learning [69.72656588714155]
グラフ表現学習は、ノード分類、予測、コミュニティ検出など、多くのグラフベースのアプリケーションで顕著な成功を収めている。
しかし,グラフ圧縮やエッジ分割などのグラフアプリケーションでは,グラフ表現学習タスクに還元することは極めて困難である。
本稿では,このようなアプリケーションの背後にあるグラフ順序付け問題に対して,新しい学習手法を用いて対処することを提案する。
論文 参考訳(メタデータ) (2020-01-18T09:14:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。