論文の概要: Learning Object-Centered Autotelic Behaviors with Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2204.05141v1
- Date: Mon, 11 Apr 2022 14:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 21:47:18.821390
- Title: Learning Object-Centered Autotelic Behaviors with Graph Neural Networks
- Title(参考訳): グラフニューラルネットワークを用いた物体中心オートテリック行動の学習
- Authors: Ahmed Akakzia, Olivier Sigaud
- Abstract要約: 人間は、学習したいくつかのスキルにアクセスでき、それが新しい状況に迅速に適応する。
人工知能では、本来の目的を表現し、設定するために動機づけられたオートテリックエージェントは、有望なスキル適応能力を示す。
本研究では,4種類のグラフニューラルネットワークポリシー表現と2種類の目標空間を用いて,自律エージェントの異なる実装について検討する。
- 参考スコア(独自算出の注目度): 10.149376933379036
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although humans live in an open-ended world and endlessly face new
challenges, they do not have to learn from scratch each time they face the next
one. Rather, they have access to a handful of previously learned skills, which
they rapidly adapt to new situations. In artificial intelligence, autotelic
agents, which are intrinsically motivated to represent and set their own goals,
exhibit promising skill adaptation capabilities. However, these capabilities
are highly constrained by their policy and goal space representations. In this
paper, we propose to investigate the impact of these representations on the
learning capabilities of autotelic agents. We study different implementations
of autotelic agents using four types of Graph Neural Networks policy
representations and two types of goal spaces, either geometric or
predicate-based. We show that combining object-centered architectures that are
expressive enough with semantic relational goals enables an efficient transfer
between skills and promotes behavioral diversity. We also release our
graph-based implementations to encourage further research in this direction.
- Abstract(参考訳): 人間はオープンエンドの世界に住んでいて、新しい課題に無限に直面しているが、次の課題に直面するたびにスクラッチから学ぶ必要はない。
むしろ、彼らはいくつかの学習されたスキルにアクセスでき、新しい状況に迅速に適応する。
人工知能では、本来の目的を表現し、設定するために動機づけられたオートテリックエージェントは、有望なスキル適応能力を示す。
しかし、これらの能力は政策や目標空間の表現によって非常に制約されている。
本稿では,これらの表現が自律エージェントの学習能力に与える影響について検討する。
本研究では,4種類のグラフニューラルネットワークのポリシー表現と,幾何学的あるいは述語的な2種類の目標空間を用いて,オートテリックエージェントの異なる実装について検討する。
セマンティックリレーショナルゴールと十分に表現可能なオブジェクト指向アーキテクチャを組み合わせることで,スキル間の効率的な伝達が可能になり,行動多様性が促進されることを示す。
グラフベースの実装もリリースし、この方向のさらなる研究を奨励しています。
関連論文リスト
- Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Augmenting Autotelic Agents with Large Language Models [24.16977502082188]
言語モデル拡張オートテリックエージェント(LMA3)を導入する。
LMA3は多様で抽象的で人間に関連する目標の表現、生成、学習をサポートする。
LMA3エージェントはタスクに依存しないテキストベースの環境において,多種多様なスキルを習得する。
論文 参考訳(メタデータ) (2023-05-21T15:42:41Z) - Choreographer: Learning and Adapting Skills in Imagination [60.09911483010824]
我々は、その世界モデルを利用して想像力のスキルを学び、適応するモデルベースのエージェントであるChoreographerを紹介する。
提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。
Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。
論文 参考訳(メタデータ) (2022-11-23T23:31:14Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - Stochastic Coherence Over Attention Trajectory For Continuous Learning
In Video Streams [64.82800502603138]
本稿では,映像ストリーム中のピクセルワイズ表現を段階的かつ自律的に開発するための,ニューラルネットワークに基づく新しいアプローチを提案する。
提案手法は, 参加者の入場地を観察することで, エージェントが学習できる, 人間の様の注意機構に基づく。
実験では,3次元仮想環境を利用して,映像ストリームを観察することで,エージェントが物体の識別を学べることを示す。
論文 参考訳(メタデータ) (2022-04-26T09:52:31Z) - Self-Supervised Graph Neural Network for Multi-Source Domain Adaptation [51.21190751266442]
ドメイン適応(DA)は、テストデータがトレーニングデータの同じ分布に完全に従わない場合に、シナリオに取り組む。
大規模未ラベルサンプルから学習することで、自己教師型学習がディープラーニングの新しいトレンドとなっている。
我々は,より効果的なタスク間情報交換と知識共有を実現するために,新しい textbfSelf-textbf Supervised textbfGraph Neural Network (SSG) を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:56Z) - Divergent representations of ethological visual inputs emerge from
supervised, unsupervised, and reinforcement learning [20.98896935012773]
8つの異なる畳み込みニューラルネットワークによって学習された表現を比較する。
強化学習で訓練されたネットワークは,他のネットワークと大きく異なることがわかった。
論文 参考訳(メタデータ) (2021-12-03T17:18:09Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - ELSIM: End-to-end learning of reusable skills through intrinsic
motivation [0.0]
本稿では、階層的に学習し、エンドツーエンドで自己生成スキルを表現する新しい強化学習アーキテクチャを提案する。
このアーキテクチャでは、エージェントは、スキルボトムアップの学習プロセスを維持しながら、タスクリワードスキルのみに焦点を当てる。
論文 参考訳(メタデータ) (2020-06-23T11:20:46Z) - Learning Neural-Symbolic Descriptive Planning Models via Cube-Space
Priors: The Voyage Home (to STRIPS) [13.141761152863868]
我々のニューロシンボリックアーキテクチャは、画像のみから簡潔で効果的な離散状態遷移モデルを生成するために、エンドツーエンドで訓練されていることを示す。
私たちのターゲット表現は、既成の問題解決者が使いこなせる形で既に存在しており、現代の検索機能への扉を開いています。
論文 参考訳(メタデータ) (2020-04-27T15:01:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。