論文の概要: Language as a Cognitive Tool to Imagine Goals in Curiosity-Driven
Exploration
- arxiv url: http://arxiv.org/abs/2002.09253v4
- Date: Wed, 21 Oct 2020 16:48:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:07:57.282272
- Title: Language as a Cognitive Tool to Imagine Goals in Curiosity-Driven
Exploration
- Title(参考訳): 好奇心駆動探索におけるゴールの認知ツールとしての言語
- Authors: C\'edric Colas, Tristan Karch, Nicolas Lair, Jean-Michel Dussoux,
Cl\'ement Moulin-Frier, Peter Ford Dominey, Pierre-Yves Oudeyer
- Abstract要約: 発達機械学習は、人工エージェントが子供のオープンエンドのスキルのレパートリーを学習する方法をモデル化する方法を研究する。
アウト・オブ・ディストリビューションの目標を想像する能力は、創造的な発見とオープンエンドの学習を可能にする鍵である、と私たちは主張する。
プレイグラウンド環境を導入し,この形態のゴール・イマジネーションが,この能力に欠けるエージェントの一般化と探索をいかに改善するかを考察する。
- 参考スコア(独自算出の注目度): 15.255795563999422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developmental machine learning studies how artificial agents can model the
way children learn open-ended repertoires of skills. Such agents need to create
and represent goals, select which ones to pursue and learn to achieve them.
Recent approaches have considered goal spaces that were either fixed and
hand-defined or learned using generative models of states. This limited agents
to sample goals within the distribution of known effects. We argue that the
ability to imagine out-of-distribution goals is key to enable creative
discoveries and open-ended learning. Children do so by leveraging the
compositionality of language as a tool to imagine descriptions of outcomes they
never experienced before, targeting them as goals during play. We introduce
IMAGINE, an intrinsically motivated deep reinforcement learning architecture
that models this ability. Such imaginative agents, like children, benefit from
the guidance of a social peer who provides language descriptions. To take
advantage of goal imagination, agents must be able to leverage these
descriptions to interpret their imagined out-of-distribution goals. This
generalization is made possible by modularity: a decomposition between learned
goal-achievement reward function and policy relying on deep sets, gated
attention and object-centered representations. We introduce the Playground
environment and study how this form of goal imagination improves generalization
and exploration over agents lacking this capacity. In addition, we identify the
properties of goal imagination that enable these results and study the impacts
of modularity and social interactions.
- Abstract(参考訳): 発達機械学習は、人工エージェントが子供のオープンエンドのスキルのレパートリーを学習する方法をモデル化する方法を研究する。
このようなエージェントは、目標を作成し、表現し、どれを追求し、達成するために学ぶかを選択する必要があります。
近年のアプローチでは、目標空間は固定あるいは手動で定義され、状態の生成モデルを用いて学習されている。
この制限されたエージェントは、既知の効果の分布内の目標をサンプリングする。
分散目標を想像できる能力は、創造的な発見と開放的な学習を可能にするための鍵であると主張する。
子どもたちは、経験したことのない結果の記述を想像するためのツールとして、言語の構成性を活用することで、遊び中に目標としてターゲットにしている。
この能力をモデル化する,本質的に動機づけられた深層強化学習アーキテクチャについて紹介する。
子どものような想像力のあるエージェントは、言語記述を提供する社会的仲間の指導の恩恵を受ける。
目標の想像力を活用するために、エージェントはこれらの記述を利用して、想像外の目標を解釈する必要がある。
この一般化はモジュラリティによって可能であり、学習した目標達成報酬関数と、深い集合に依存するポリシーと、注意を喚起し、対象中心表現を分解する。
プレイグラウンド環境を導入し,この形態のゴール・イマジネーションが,この能力に欠けるエージェントの一般化と探索をいかに改善するかを考察する。
さらに、これらの結果を可能にするゴールイマジネーションの特性を特定し、モジュラリティと社会的相互作用の影響について検討する。
関連論文リスト
- Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - Augmenting Autotelic Agents with Large Language Models [24.16977502082188]
言語モデル拡張オートテリックエージェント(LMA3)を導入する。
LMA3は多様で抽象的で人間に関連する目標の表現、生成、学習をサポートする。
LMA3エージェントはタスクに依存しないテキストベースの環境において,多種多様なスキルを習得する。
論文 参考訳(メタデータ) (2023-05-21T15:42:41Z) - A Song of Ice and Fire: Analyzing Textual Autotelic Agents in
ScienceWorld [21.29303927728839]
行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。
最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。
我々は、社会的仲間のフィードバックから選択性の重要性を示す。その経験は、稀な目標の例を過度にサンプリングする必要がある。
論文 参考訳(メタデータ) (2023-02-10T13:49:50Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Understanding the origin of information-seeking exploration in
probabilistic objectives for control [62.997667081978825]
探索と探索のトレードオフは適応行動の記述の中心である。
このトレードオフを解決する1つのアプローチは、エージェントが固有の「探索駆動」を持っていることを装備または提案することであった。
汎用的最大化と情報参照行動の組み合わせは, 目的の全く異なる分類の最小化から生じることを示す。
論文 参考訳(メタデータ) (2021-03-11T18:42:39Z) - Action and Perception as Divergence Minimization [43.75550755678525]
アクションパーセプション・ディバージェンス(Action Perception Divergence)は、エンボディエージェントの可能な目的関数の空間を分類するためのアプローチである。
狭い目的から一般的な目的に到達するスペクトルを示す。
これらのエージェントは、彼らの信念を世界と整合させるのに知覚を使い、行動を使って世界と信念を整合させる。
論文 参考訳(メタデータ) (2020-09-03T16:52:46Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Imagination-Augmented Deep Learning for Goal Recognition [0.0]
現在の目標認識研究における顕著な考え方は、計画コストの見積からエージェントが持つ可能性のある異なる目標まで、エージェントの目標の可能性を推測することである。
本稿では,記号プランナを用いて計画コストのインサイトを計算し,深層ニューラルネットワークを想像力で拡張する手法を提案する。
論文 参考訳(メタデータ) (2020-03-20T23:07:34Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。