論文の概要: Exploring Exploration: Comparing Children with RL Agents in Unified
Environments
- arxiv url: http://arxiv.org/abs/2005.02880v2
- Date: Wed, 1 Jul 2020 09:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:42:33.319906
- Title: Exploring Exploration: Comparing Children with RL Agents in Unified
Environments
- Title(参考訳): 探究: 統一環境における子どもとrlエージェントの比較
- Authors: Eliza Kosoy, Jasmine Collins, David M. Chan, Sandy Huang, Deepak
Pathak, Pulkit Agrawal, John Canny, Alison Gopnik, Jessica B. Hamrick
- Abstract要約: 本稿では,子どもとエージェントの行動を直接比較し,新たな探索手法を開発するためのプラットフォームとしてDeepMind Labを提案する。
直接比較の有効性を実証する2つの実験を概説し、この手法を用いて検証できると思われる多くのオープンな研究課題を概説する。
- 参考スコア(独自算出の注目度): 24.042862527317258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Research in developmental psychology consistently shows that children explore
the world thoroughly and efficiently and that this exploration allows them to
learn. In turn, this early learning supports more robust generalization and
intelligent behavior later in life. While much work has gone into developing
methods for exploration in machine learning, artificial agents have not yet
reached the high standard set by their human counterparts. In this work we
propose using DeepMind Lab (Beattie et al., 2016) as a platform to directly
compare child and agent behaviors and to develop new exploration techniques. We
outline two ongoing experiments to demonstrate the effectiveness of a direct
comparison, and outline a number of open research questions that we believe can
be tested using this methodology.
- Abstract(参考訳): 発達心理学の研究は、子どもが世界を徹底的に効率的に探索し、この探索によって学習できることを一貫して示している。
この早期学習は、後の人生においてより堅牢な一般化とインテリジェントな行動をサポートする。
機械学習の探索方法の開発に多くの作業が費やされているが、人工エージェントはまだ人間による高度な基準に達していない。
本研究では,DeepMind Lab (Beattie et al., 2016) を子どもとエージェントの行動を直接比較し,新たな探索手法を開発するためのプラットフォームとして用いることを提案する。
直接比較の有効性を実証する2つの実験を概説し、この手法を用いて検証できると思われる多くのオープンな研究課題を概説する。
関連論文リスト
- On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Comparing Machines and Children: Using Developmental Psychology
Experiments to Assess the Strengths and Weaknesses of LaMDA Responses [0.02999888908665658]
我々は,Googleの大規模言語モデルであるLaMDAの能力を評価するために,古典的な開発実験を適用した。
社会的理解に関する実験において,LaMDAは子どもと同様の適切な反応を産み出すことがわかった。
一方、初期の対象と行動理解、心の理論、特に因果推論タスクに対するLaMDAの反応は、幼児のそれとは大きく異なる。
論文 参考訳(メタデータ) (2023-05-18T18:15:43Z) - Machine Psychology [54.287802134327485]
我々は、心理学にインスパイアされた行動実験において、研究のための実りある方向が、大きな言語モデルに係わっていると論じる。
本稿では,本手法が表に示す理論的視点,実験パラダイム,計算解析技術について述べる。
これは、パフォーマンスベンチマークを超えた、生成人工知能(AI)のための「機械心理学」の道を開くものだ。
論文 参考訳(メタデータ) (2023-03-24T13:24:41Z) - DIAMBRA Arena: a New Reinforcement Learning Platform for Research and
Experimentation [91.3755431537592]
本研究は、強化学習研究と実験のための新しいプラットフォームであるDIAMBRA Arenaを提示する。
高品質な環境のコレクションが,OpenAI Gym標準に完全に準拠したPython APIを公開している。
これらは、離散的なアクションと観測を生のピクセルと追加の数値で構成したエピソディックなタスクである。
論文 参考訳(メタデータ) (2022-10-19T14:39:10Z) - Learning Causal Overhypotheses through Exploration in Children and
Computational Models [4.957184316605402]
制御可能な因果構造を持つ新しい強化学習環境を提案する。
本研究では, 因果環境における情報ゲイン最適RL探索と, 同一環境における子どもの探索との間に有意な差異があることを実証した。
論文 参考訳(メタデータ) (2022-02-21T18:43:58Z) - Interesting Object, Curious Agent: Learning Task-Agnostic Exploration [44.18450799034677]
本稿では,タスク非依存探索の定式化と評価におけるパラダイム変化を提案する。
我々の定式化は効果的であることを示し、複数のトレーニングテスト環境ペアをまたいだ最も一貫した探索を提供する。
論文 参考訳(メタデータ) (2021-11-25T15:17:32Z) - Long-Term Exploration in Persistent MDPs [68.8204255655161]
RbExplore (Rollback-Explore) と呼ばれる探査手法を提案する。
本稿では,マルコフ決定過程を永続的に決定する手法であるロールバック・エクスロア (RbExplore) を提案する。
我々は,ペルシャのプリンス・オブ・ペルシャゲームにおいて,報酬やドメイン知識を伴わずに,我々のアルゴリズムを検証した。
論文 参考訳(メタデータ) (2021-09-21T13:47:04Z) - An Open-World Simulated Environment for Developmental Robotics [1.2955718209635252]
SEDRoは、学習エージェントが、人間の幼児が胎児の段階から最大12ヶ月まで通る同様の経験をすることができる。
発達心理学に基づく一連のシミュレーションテストを用いて、学習モデルの進捗状況を評価する。
論文 参考訳(メタデータ) (2020-07-18T01:16:13Z) - Show me the Way: Intrinsic Motivation from Demonstrations [44.87651595571687]
複雑な探索行動は, 異なる動機を反映して, RLエージェントによって学習し, 効率的に利用でき, 徹底的な探索が禁じられる課題を解決することができることを示す。
本稿では,これらのモチベーションを人工エージェントに伝達する実証実験から探索ボーナスを学習することを提案する。
論文 参考訳(メタデータ) (2020-06-23T11:52:53Z) - Planning to Explore via Self-Supervised World Models [120.31359262226758]
Plan2Exploreは自己監督型強化学習エージェントである。
我々は、自己監督型探索と、新しいタスクへの迅速な適応に対する新しいアプローチを提案する。
Plan2Exploreは、訓練の監督やタスク固有の相互作用がなければ、自己監督型の探査方法よりも優れている。
論文 参考訳(メタデータ) (2020-05-12T17:59:45Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。