Fugu-MT 論文翻訳(概要): Learning To Explore With Predictive World Model Via Self-Supervised Learning

論文の概要: Learning To Explore With Predictive World Model Via Self-Supervised Learning

arxiv url: http://arxiv.org/abs/2502.13200v1
Date: Tue, 18 Feb 2025 18:39:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.747126
Title: Learning To Explore With Predictive World Model Via Self-Supervised Learning
Title（参考訳）: 自己監督型学習による予測的世界モデルによる探索の学習
Authors: Alana Santana, Paula P. Costa, Esther L. Colombini,
Abstract要約: 本稿では、長年無視されてきた認知的要素を用いて、本質的な動機づけを持つエージェントのための内的世界モデルを構築することを提案する。我々は18のAtariゲームを用いて、反応的かつ熟考的な行動を必要とするゲームに認知スキルが現れるかを評価した。以上の結果から, 厳密でスパースな報酬を有する多くのテストケースにおいて, 最先端技術と比較して優れた性能を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Autonomous artificial agents must be able to learn behaviors in complex environments without humans to design tasks and rewards. Designing these functions for each environment is not feasible, thus, motivating the development of intrinsic reward functions. In this paper, we propose using several cognitive elements that have been neglected for a long time to build an internal world model for an intrinsically motivated agent. Our agent performs satisfactory iterations with the environment, learning complex behaviors without needing previously designed reward functions. We used 18 Atari games to evaluate what cognitive skills emerge in games that require reactive and deliberative behaviors. Our results show superior performance compared to the state-of-the-art in many test cases with dense and sparse rewards.
Abstract（参考訳）: 自律的な人工エージェントは、人間がタスクや報酬を設計せずに複雑な環境で行動を学ぶことができなければならない。それぞれの環境に対してこれらの関数を設計することは不可能であり、本質的な報酬関数の開発を動機付ける。本稿では、長年無視されてきた認知的要素を用いて、本質的な動機づけを持つエージェントのための内的世界モデルを構築することを提案する。我々のエージェントは環境との良好なイテレーションを行い、以前に設計された報酬関数を必要とせずに複雑な振る舞いを学習する。我々は18のAtariゲームを用いて、反応的かつ熟考的な行動を必要とするゲームに認知スキルが現れるかを評価した。以上の結果から, 厳密でスパースな報酬を有する多くのテストケースにおいて, 最先端技術と比較して優れた性能を示した。

関連論文リスト

RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、模倣学習と逆強化学習の強みを組み合わせて、高密度報酬関数を効率的に学習するフレームワークである。本フレームワークは, 直接模倣が複雑な動作を再現できないような高次元タスクにおいて, 高い性能のポリシーを生成する。
論文参考訳（メタデータ） (2024-06-12T17:56:31Z)
Developmental Curiosity and Social Interaction in Virtual Agents [2.8894038270224858]
我々は、仮想幼児エージェントを作成し、外部の報酬を伴わずに、発達にインスパイアされた3D環境に配置する。我々は、人間の探索を促進するために提案されたモチベーションに類似した本質的な報酬関数をテストする。注意深い介護者の存在下で世界モデルを学ぶことは、幼児エージェントがシナリオを予測する方法を学ぶのに役立ちます。
論文参考訳（メタデータ） (2023-05-22T18:17:07Z)
Incremental procedural and sensorimotor learning in cognitive humanoid robots [52.77024349608834]
本研究は,手順を段階的に学習する認知エージェントを提案する。各サブステージで必要とされる認知機能と, エージェントが未解決の課題に, 新たな機能の追加がどう対処するかを示す。結果は、このアプローチが複雑なタスクを段階的に解くことができることを示している。
論文参考訳（メタデータ） (2023-04-30T22:51:31Z)
ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically Simulated Characters [123.88692739360457]
汎用運動技術により、人間は複雑な作業を行うことができる。これらのスキルは、新しいタスクを学ぶときの振る舞いを導くための強力な先駆者も提供します。物理シミュレーション文字のための汎用的で再利用可能なスキル埋め込みを学習するためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-05-04T06:13:28Z)
Collaborative Training of Heterogeneous Reinforcement Learning Agents in Environments with Sparse Rewards: What and When to Share? [7.489793155793319]
本研究は,本質的なモチベーションを通じて得られた情報と,より効率的な探索と学習の高速化を目的とした情報を組み合わせることに焦点を当てる。計算コストの少ない協調的なフレームワークが知識を共有することなく独立した学習プロセスより優れていることを示す。
論文参考訳（メタデータ） (2022-02-24T16:15:51Z)
Open-Ended Learning Leads to Generally Capable Agents [12.079718607356178]
環境領域内のタスクの宇宙を定義し、この広大な空間をまたいだエージェントを訓練する能力を示す。結果として生じる空間は、エージェントがもたらす課題に関して非常に多様であり、エージェントの学習の進捗を測定することさえも、オープンな研究課題である。オープンエンド学習プロセスの構築により,エージェントが学習を止めないようなトレーニングタスク分布や訓練目標を動的に変化させることで,新しい行動の一貫性のある学習が可能になることを示す。
論文参考訳（メタデータ） (2021-07-27T13:30:07Z)
Human-Level Reinforcement Learning through Theory-Based Modeling, Exploration, and Planning [27.593497502386143]
理論に基づく強化学習は、人間のような直感的な理論を使って環境を探索しモデル化する。 EMPAと呼ばれるゲームプレイエージェントのアプローチをインスタンス化する。 EMPAは90のAtariスタイルのビデオゲームで人間の学習効率と一致します。
論文参考訳（メタデータ） (2021-07-27T01:38:13Z)
Backprop-Free Reinforcement Learning with Active Neural Generative Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文参考訳（メタデータ） (2021-07-10T19:02:27Z)
Self-Supervised Exploration via Latent Bayesian Surprise [4.088019409160893]
本研究では,強化学習に固有の報酬として,好奇心に基づくボーナスを提案する。環境調査の観点から、エージェントの性能を計測し、モデルを幅広く評価します。我々のモデルは安価で経験的にいくつかの問題に対して最先端の性能を示す。
論文参考訳（メタデータ） (2021-04-15T14:40:16Z)
Emergent Real-World Robotic Skills via Unsupervised Off-Policy Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文参考訳（メタデータ） (2020-04-27T17:38:53Z)
Intrinsic Motivation for Encouraging Synergistic Behavior [55.10275467562764]
スパース・リワード・シナジスティック・タスクにおける強化学習の探索バイアスとしての本質的モチベーションの役割について検討した。私たちのキーとなる考え方は、シナジスティックなタスクにおける本質的なモチベーションのための優れた指針は、エージェントが自分自身で行動している場合、達成できない方法で世界に影響を与える行動を取ることである。
論文参考訳（メタデータ） (2020-02-12T19:34:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。