論文の概要: A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2106.02097v1
- Date: Thu, 3 Jun 2021 19:35:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 14:03:27.237119
- Title: A Consciousness-Inspired Planning Agent for Model-Based Reinforcement
Learning
- Title(参考訳): モデルに基づく強化学習のための意識型計画エージェント
- Authors: Mingde Zhao, Zhen Liu, Sitao Luan, Shuyuan Zhang, Doina Precup, Yoshua
Bengio
- Abstract要約: 本稿では、その状態の関連部分に動的に対応できるエンドツーエンドのモデルベース深層強化学習エージェントを提案する。
この設計により、エージェントは関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化がより良くなる。
- 参考スコア(独自算出の注目度): 104.3643447579578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present an end-to-end, model-based deep reinforcement learning agent which
dynamically attends to relevant parts of its state, in order to plan and to
generalize better out-of-distribution. The agent's architecture uses a set
representation and a bottleneck mechanism, forcing the number of entities to
which the agent attends at each planning step to be small. In experiments with
customized MiniGrid environments with different dynamics, we observe that the
design allows agents to learn to plan effectively, by attending to the relevant
objects, leading to better out-of-distribution generalization.
- Abstract(参考訳): 提案するエンド・ツー・エンド・エンド・モデルに基づく深層強化学習エージェントは,その状態の関連部分に動的に参画し,より良いアウト・オブ・ディストリビューションを計画し,一般化する。
エージェントのアーキテクチャは、設定された表現とボトルネックメカニズムを使用し、エージェントが各計画ステップに出席するエンティティの数を小さくする。
異なるダイナミクスを持つカスタマイズされたMiniGrid環境の実験では、エージェントが関連するオブジェクトに参画することで効果的に計画を学ぶことができ、配布外一般化の改善が期待できる。
関連論文リスト
- APT: Architectural Planning and Text-to-Blueprint Construction Using Large Language Models for Open-World Agents [8.479128275067742]
本稿では,自律型エージェントによるMinecraftの複雑な構造構築を可能にする,LLM(Large Language Model)駆動のフレームワークを提案する。
連鎖分解とマルチモーダル入力を用いることで、このフレームワークは詳細なアーキテクチャレイアウトと青写真を生成する。
本エージェントは, メモリとリフレクションモジュールの両方を組み込んで, 生涯学習, 適応的洗練, エラー訂正を容易にする。
論文 参考訳(メタデータ) (2024-11-26T09:31:28Z) - Compositional Foundation Models for Hierarchical Planning [52.18904315515153]
本稿では,言語,視覚,行動データを個別に訓練し,長期的課題を解決するための基礎モデルを提案する。
我々は,大規模なビデオ拡散モデルを用いて,環境に根ざした記号的計画を構築するために,大規模言語モデルを用いている。
生成したビデオプランは、生成したビデオからアクションを推論する逆ダイナミクスモデルを通じて、視覚運動制御に基礎を置いている。
論文 参考訳(メタデータ) (2023-09-15T17:44:05Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Build generally reusable agent-environment interaction models [28.577502598559988]
本稿では,モデルの事前学習の問題に対処し,ダウンストリームタスク学習のためのバックボーンを一般に再利用する。
本稿では,様々なタスクをカバーしたエージェントの膨大な経験から,ドメイン不変な後継特徴を学習してエージェント環境相互作用モデルを構築し,それらを行動プロトタイプに識別する手法を提案する。
本研究では,事前学習した組立構造に基づく下流タスク学習が課題目標,環境力学,センサのモダリティの未確認変化を処理できる予備的な結果を提供する。
論文 参考訳(メタデータ) (2022-11-13T07:33:14Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。