論文の概要: Thinker: Learning to Plan and Act
- arxiv url: http://arxiv.org/abs/2307.14993v2
- Date: Thu, 26 Oct 2023 23:11:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-30 17:17:34.136441
- Title: Thinker: Learning to Plan and Act
- Title(参考訳): thinker: 計画と行動を学ぶ
- Authors: Stephen Chung, Ivan Anokhin, David Krueger
- Abstract要約: 思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。
本研究では,ソコバンとアタリ2600ベンチマークを用いて,実験結果を用いてアルゴリズムの有効性を実証する。
- 参考スコア(独自算出の注目度): 18.425843346728648
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Thinker algorithm, a novel approach that enables reinforcement
learning agents to autonomously interact with and utilize a learned world
model. The Thinker algorithm wraps the environment with a world model and
introduces new actions designed for interacting with the world model. These
model-interaction actions enable agents to perform planning by proposing
alternative plans to the world model before selecting a final action to execute
in the environment. This approach eliminates the need for handcrafted planning
algorithms by enabling the agent to learn how to plan autonomously and allows
for easy interpretation of the agent's plan with visualization. We demonstrate
the algorithm's effectiveness through experimental results in the game of
Sokoban and the Atari 2600 benchmark, where the Thinker algorithm achieves
state-of-the-art performance and competitive results, respectively.
Visualizations of agents trained with the Thinker algorithm demonstrate that
they have learned to plan effectively with the world model to select better
actions. Thinker is the first work showing that an RL agent can learn to plan
with a learned world model in complex environments.
- Abstract(参考訳): 本稿では,強化学習エージェントが学習世界モデルと自律的に対話し,活用できる新しい手法であるThinkerアルゴリズムを提案する。
思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。
これらのモデル-インタラクションアクションは、エージェントが環境内で実行する最終アクションを選択する前に、世界モデルに代替計画を提案することによって、計画を実行することができる。
このアプローチは、エージェントが自律的に計画の仕方を学べることによって、手作りの計画アルゴリズムの必要性を排除し、可視化によるエージェントの計画の解釈を容易にする。
本稿では,ソコバンとアタリ2600ベンチマークのゲームにおいて,実験結果によるアルゴリズムの有効性を実証する。
thinkerアルゴリズムで訓練されたエージェントの可視化は、よりよいアクションを選択するために世界モデルと効果的に計画することを学んだことを示している。
thinkerは、rlエージェントが複雑な環境で学習した世界モデルで計画を学ぶことができることを示す最初の仕事である。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment [11.81398773711566]
我々は,環境とのインタラクションに基づいて,世界の知識を表現したPythonプログラムを構築するモデルベースエージェントを提案する。
我々は,グリッドワールド,タスクプランニングにおいて,我々のアプローチは深層RLに比べてサンプリング効率が良く,ReActスタイルのエージェントよりも計算効率が良く,コードを編集することで,その知識を環境間で伝達することができることを研究した。
論文 参考訳(メタデータ) (2024-02-19T16:39:18Z) - AI planning in the imagination: High-level planning on learned abstract
search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。
本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文 参考訳(メタデータ) (2023-08-16T22:47:16Z) - DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。
世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。
コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文 参考訳(メタデータ) (2023-08-14T23:45:01Z) - An intelligent tutor for planning in large partially observable environments [0.8739101659113157]
本研究では,部分的に観測可能な環境下での計画のための知的チューターを開発し,評価する。
計画戦略を教えるための知的家庭教師と比べ、この新しい知的家庭教師は2つの革新を組み合わせている。
330人の参加者による事前登録実験では、新しいインテリジェントチューターは、部分的に観察可能な環境で良い判断を下す能力を向上させるのに非常に効果的であることが示された。
論文 参考訳(メタデータ) (2023-02-06T13:57:08Z) - Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。
モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。
我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文 参考訳(メタデータ) (2022-03-01T11:00:35Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Planning from video game descriptions [0.0]
プランナーはこれらのアクションモデルを使用して、さまざまなビデオゲームでエージェントの熟考行動を取得する。
ドメインのベンチマークが 作成されました 国際計画コミュニティにとって 興味のあるものです
論文 参考訳(メタデータ) (2021-09-01T15:49:09Z) - Human-Level Reinforcement Learning through Theory-Based Modeling,
Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。
EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。
EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文 参考訳(メタデータ) (2021-07-27T01:38:13Z) - A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文 参考訳(メタデータ) (2021-06-03T19:35:19Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。