論文の概要: Thinker: Learning to Plan and Act
- arxiv url: http://arxiv.org/abs/2307.14993v2
- Date: Thu, 26 Oct 2023 23:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:17:34.136441
- Title: Thinker: Learning to Plan and Act
- Title(参考訳): thinker: 計画と行動を学ぶ
- Authors: Stephen Chung, Ivan Anokhin, David Krueger
- Abstract要約: 思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。
本研究では,ソコバンとアタリ2600ベンチマークを用いて,実験結果を用いてアルゴリズムの有効性を実証する。
- 参考スコア(独自算出の注目度): 18.425843346728648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Thinker algorithm, a novel approach that enables reinforcement
learning agents to autonomously interact with and utilize a learned world
model. The Thinker algorithm wraps the environment with a world model and
introduces new actions designed for interacting with the world model. These
model-interaction actions enable agents to perform planning by proposing
alternative plans to the world model before selecting a final action to execute
in the environment. This approach eliminates the need for handcrafted planning
algorithms by enabling the agent to learn how to plan autonomously and allows
for easy interpretation of the agent's plan with visualization. We demonstrate
the algorithm's effectiveness through experimental results in the game of
Sokoban and the Atari 2600 benchmark, where the Thinker algorithm achieves
state-of-the-art performance and competitive results, respectively.
Visualizations of agents trained with the Thinker algorithm demonstrate that
they have learned to plan effectively with the world model to select better
actions. Thinker is the first work showing that an RL agent can learn to plan
with a learned world model in complex environments.
- Abstract(参考訳): 本稿では,強化学習エージェントが学習世界モデルと自律的に対話し,活用できる新しい手法であるThinkerアルゴリズムを提案する。
思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。
これらのモデル-インタラクションアクションは、エージェントが環境内で実行する最終アクションを選択する前に、世界モデルに代替計画を提案することによって、計画を実行することができる。
このアプローチは、エージェントが自律的に計画の仕方を学べることによって、手作りの計画アルゴリズムの必要性を排除し、可視化によるエージェントの計画の解釈を容易にする。
本稿では,ソコバンとアタリ2600ベンチマークのゲームにおいて,実験結果によるアルゴリズムの有効性を実証する。
thinkerアルゴリズムで訓練されたエージェントの可視化は、よりよいアクションを選択するために世界モデルと効果的に計画することを学んだことを示している。
thinkerは、rlエージェントが複雑な環境で学習した世界モデルで計画を学ぶことができることを示す最初の仕事である。
関連論文リスト
- AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Planning from video game descriptions [0.0]
プランナーはこれらのアクションモデルを使用して、さまざまなビデオゲームでエージェントの熟考行動を取得する。
ドメインのベンチマークが 作成されました 国際計画コミュニティにとって 興味のあるものです
論文 参考訳(メタデータ) (2021-09-01T15:49:09Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Model-free Representation Learning and Exploration in Low-rank MDPs [64.72023662543363]
低位mdpに対して,最初のモデルフリー表現学習アルゴリズムを提案する。
主要なアルゴリズムの貢献は新しいミニマックス表現の学習の目的です。
結果は複雑な環境にスケールする一般的な関数近似を収容できます。
論文 参考訳(メタデータ) (2021-02-14T00:06:54Z) - Evolutionary Planning in Latent Space [7.863826008567604]
プランニングは、いくつかの望ましい特性を持つ強化学習の強力なアプローチである。
我々は、ラテントスペースにおける進化的計画を可能にする世界モデルを学ぶ。
ランダムなポリシーからのロールアウトでブートストラップし、より正確な計画ポリシーからのロールアウトで反復的に修正することで、世界のモデルを構築する方法を示します。
論文 参考訳(メタデータ) (2020-11-23T09:21:30Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。