Fugu-MT 論文翻訳(概要): Thinker: Learning to Plan and Act

論文の概要: Thinker: Learning to Plan and Act

arxiv url: http://arxiv.org/abs/2307.14993v2
Date: Thu, 26 Oct 2023 23:11:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-30 17:17:34.136441
Title: Thinker: Learning to Plan and Act
Title（参考訳）: thinker: 計画と行動を学ぶ
Authors: Stephen Chung, Ivan Anokhin, David Krueger
Abstract要約: 思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。本研究では,ソコバンとアタリ2600ベンチマークを用いて,実験結果を用いてアルゴリズムの有効性を実証する。
参考スコア（独自算出の注目度）: 18.425843346728648
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose the Thinker algorithm, a novel approach that enables reinforcement learning agents to autonomously interact with and utilize a learned world model. The Thinker algorithm wraps the environment with a world model and introduces new actions designed for interacting with the world model. These model-interaction actions enable agents to perform planning by proposing alternative plans to the world model before selecting a final action to execute in the environment. This approach eliminates the need for handcrafted planning algorithms by enabling the agent to learn how to plan autonomously and allows for easy interpretation of the agent's plan with visualization. We demonstrate the algorithm's effectiveness through experimental results in the game of Sokoban and the Atari 2600 benchmark, where the Thinker algorithm achieves state-of-the-art performance and competitive results, respectively. Visualizations of agents trained with the Thinker algorithm demonstrate that they have learned to plan effectively with the world model to select better actions. Thinker is the first work showing that an RL agent can learn to plan with a learned world model in complex environments.
Abstract（参考訳）: 本稿では,強化学習エージェントが学習世界モデルと自律的に対話し,活用できる新しい手法であるThinkerアルゴリズムを提案する。思考アルゴリズムは環境を世界モデルで包み、世界モデルと対話するために設計された新しいアクションを導入する。これらのモデル-インタラクションアクションは、エージェントが環境内で実行する最終アクションを選択する前に、世界モデルに代替計画を提案することによって、計画を実行することができる。このアプローチは、エージェントが自律的に計画の仕方を学べることによって、手作りの計画アルゴリズムの必要性を排除し、可視化によるエージェントの計画の解釈を容易にする。本稿では,ソコバンとアタリ2600ベンチマークのゲームにおいて,実験結果によるアルゴリズムの有効性を実証する。 thinkerアルゴリズムで訓練されたエージェントの可視化は、よりよいアクションを選択するために世界モデルと効果的に計画することを学んだことを示している。 thinkerは、rlエージェントが複雑な環境で学習した世界モデルで計画を学ぶことができることを示す最初の仕事である。

関連論文リスト

WorldPrediction: A Benchmark for High-level World Modeling and Long-horizon Procedural Planning [52.36434784963598]
我々は、異なるAIモデルのワールドモデリングと手続き計画能力を評価するためのビデオベースのベンチマークであるWorldPredictionを紹介する。現在のフロンティアモデルでは,WorldPrediction-WMでは57%,WorldPrediction-PPでは38%の精度しか達成できないが,人間は両タスクを完璧に解くことができる。
論文参考訳（メタデータ） (2025-06-04T18:22:40Z)
World Models for Cognitive Agents: Transforming Edge Intelligence in Future Networks [55.90051810762702]
本稿では,世界モデルを概観し,そのアーキテクチャ,トレーニングパラダイム,予測,生成,計画,因果推論といった応用を概観する。ワイヤレスエッジインテリジェンス最適化に適した,新しい世界モデルに基づく強化学習フレームワークであるWireless Dreamerを提案する。
論文参考訳（メタデータ） (2025-05-31T06:43:00Z)
Dyna-Think: Synergizing Reasoning, Acting, and World Model Simulation in AI Agents [76.86311820866153]
本稿では,AIエージェントの性能向上のための推論と行動を伴う内的世界モデルとプランニングを統合した思考フレームワークDyna-Thinkを提案する。 DITは、R1の思考プロセスを再構築し、提案された(計画された)行動に関連する世界モデルシミュレーションの実行に集中し、この再構成データを用いてポリシーを訓練する。 DDTは2段階のトレーニングプロセスを使用して、まず状態予測や批判生成といった目的を通じてエージェントの世界モデリング能力を改善し、次にポリシートレーニングを通じてエージェントのアクションを改善する。
論文参考訳（メタデータ） (2025-05-31T00:10:18Z)
AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文参考訳（メタデータ） (2025-03-24T17:58:15Z)
Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。 HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。 HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文参考訳（メタデータ） (2024-06-12T08:48:06Z)
WorldCoder, a Model-Based LLM Agent: Building World Models by Writing Code and Interacting with the Environment [11.81398773711566]
我々は,環境とのインタラクションに基づいて,世界の知識を表現したPythonプログラムを構築するモデルベースエージェントを提案する。我々は,グリッドワールド,タスクプランニングにおいて,我々のアプローチは深層RLに比べてサンプリング効率が良く,ReActスタイルのエージェントよりも計算効率が良く,コードを編集することで,その知識を環境間で伝達することができることを研究した。
論文参考訳（メタデータ） (2024-02-19T16:39:18Z)
AI planning in the imagination: High-level planning on learned abstract search spaces [68.75684174531962]
我々は,エージェントが訓練中に学習する抽象的な検索空間において,エージェントが計画することを可能にする,PiZeroと呼ばれる新しい手法を提案する。本研究では,旅行セールスマン問題,ソコバン問題,2048年,施設立地問題,パックマン問題など,複数の分野で評価を行った。
論文参考訳（メタデータ） (2023-08-16T22:47:16Z)
DREAMWALKER: Mental Planning for Continuous Vision-Language Navigation [107.5934592892763]
本稿では,世界モデルに基づくVLN-CEエージェントDREAMWALKERを提案する。世界モデルは、複雑な連続環境の視覚的、位相的、動的特性を要約するために構築される。コストのかかるアクションを実行する前に、そのような抽象的な世界で可能な計画を完全にシミュレートし、評価することができる。
論文参考訳（メタデータ） (2023-08-14T23:45:01Z)
An intelligent tutor for planning in large partially observable environments [0.8739101659113157]
本研究では,部分的に観測可能な環境下での計画のための知的チューターを開発し,評価する。計画戦略を教えるための知的家庭教師と比べ、この新しい知的家庭教師は2つの革新を組み合わせている。 330人の参加者による事前登録実験では、新しいインテリジェントチューターは、部分的に観察可能な環境で良い判断を下す能力を向上させるのに非常に効果的であることが示された。
論文参考訳（メタデータ） (2023-02-06T13:57:08Z)
Affordance Learning from Play for Sample-Efficient Policy Learning [30.701546777177555]
遠隔操作型プレイデータから自己監督型ビジュアルアプライアンスモデルを用いて,効率的なポリシー学習とモーションプランニングを実現する。モデルベースプランニングとモデルフリーの深層強化学習を組み合わせることで、人々が好む同じ対象領域を好むポリシーを学ぶ。我々の政策はベースラインよりも4倍速くトレーニングし、新しいオブジェクトを一般化する。
論文参考訳（メタデータ） (2022-03-01T11:00:35Z)
Procedure Planning in Instructional Videosvia Contextual Modeling and Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-10-05T01:06:53Z)
Planning from video game descriptions [0.0]
プランナーはこれらのアクションモデルを使用して、さまざまなビデオゲームでエージェントの熟考行動を取得する。ドメインのベンチマークが作成されました国際計画コミュニティにとって興味のあるものです
論文参考訳（メタデータ） (2021-09-01T15:49:09Z)
Human-Level Reinforcement Learning through Theory-Based Modeling, Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。 EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。 EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文参考訳（メタデータ） (2021-07-27T01:38:13Z)
A Consciousness-Inspired Planning Agent for Model-Based Reinforcement Learning [104.3643447579578]
本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
論文参考訳（メタデータ） (2021-06-03T19:35:19Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。