論文の概要: Augmenting Autotelic Agents with Large Language Models
- arxiv url: http://arxiv.org/abs/2305.12487v1
- Date: Sun, 21 May 2023 15:42:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:04:45.691437
- Title: Augmenting Autotelic Agents with Large Language Models
- Title(参考訳): 大規模言語モデルによるオートテリックエージェントの増強
- Authors: C\'edric Colas, Laetitia Teodorescu, Pierre-Yves Oudeyer, Xingdi Yuan,
Marc-Alexandre C\^ot\'e
- Abstract要約: 言語モデル拡張オートテリックエージェント(LMA3)を導入する。
LMA3は多様で抽象的で人間に関連する目標の表現、生成、学習をサポートする。
LMA3エージェントはタスクに依存しないテキストベースの環境において,多種多様なスキルを習得する。
- 参考スコア(独自算出の注目度): 24.16977502082188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans learn to master open-ended repertoires of skills by imagining and
practicing their own goals. This autotelic learning process, literally the
pursuit of self-generated (auto) goals (telos), becomes more and more
open-ended as the goals become more diverse, abstract and creative. The
resulting exploration of the space of possible skills is supported by an
inter-individual exploration: goal representations are culturally evolved and
transmitted across individuals, in particular using language. Current
artificial agents mostly rely on predefined goal representations corresponding
to goal spaces that are either bounded (e.g. list of instructions), or
unbounded (e.g. the space of possible visual inputs) but are rarely endowed
with the ability to reshape their goal representations, to form new
abstractions or to imagine creative goals. In this paper, we introduce a
language model augmented autotelic agent (LMA3) that leverages a pretrained
language model (LM) to support the representation, generation and learning of
diverse, abstract, human-relevant goals. The LM is used as an imperfect model
of human cultural transmission; an attempt to capture aspects of humans'
common-sense, intuitive physics and overall interests. Specifically, it
supports three key components of the autotelic architecture: 1)~a relabeler
that describes the goals achieved in the agent's trajectories, 2)~a goal
generator that suggests new high-level goals along with their decomposition
into subgoals the agent already masters, and 3)~reward functions for each of
these goals. Without relying on any hand-coded goal representations, reward
functions or curriculum, we show that LMA3 agents learn to master a large
diversity of skills in a task-agnostic text-based environment.
- Abstract(参考訳): 人間は自身の目標を想像し、実践することで、オープンエンドのスキルのレパートリーを習得することを学ぶ。
この自己学習プロセスは、文字通り自己生成(自動)目標(telos)の追求であり、目標がより多様で抽象的で創造的になるにつれて、ますますオープンになっていく。
得られたスキルの空間の探索は、個人間の探索によって支持される:ゴール表現は文化的に進化し、個人、特に言語を用いて伝達される。
現在の人工エージェントは、主に、有界(例えば、命令のリスト)または非有界(例えば、視覚的な入力の空間)のいずれかに対応する定義済みのゴール表現に頼っているが、目的表現を再形成したり、新しい抽象を形成したり、創造的なゴールを想像したりする能力に恵まれることはほとんどない。
本稿では,多種多様な抽象的,人間関連目標の表現,生成,学習を支援するために,事前訓練された言語モデル(LM)を活用する言語モデル拡張オートテリックエージェント(LMA3)を提案する。
LMは人間の文化的伝達の不完全なモデルとして使われ、人間の常識、直感的な物理学、そして全体的な関心を捉えようとする試みである。
具体的には、1)エージェントの軌道で達成された目標を記述するレラベル、2)エージェントが既にマスターしているサブゴールへの分解と共に新しいハイレベルな目標を提案するゴールジェネレータ、3)それぞれの目標に対する逆関数である。
LMA3エージェントは、手書きのゴール表現や報酬関数、カリキュラムを頼らずに、タスクに依存しないテキストベースの環境において、多種多様なスキルを習得することを学ぶ。
関連論文リスト
- WANDR: Intention-guided Human Motion Generation [67.07028110459787]
我々は,アバターの初期ポーズとゴールの3D位置を取り,ゴール位置にエンドエフェクタ(抵抗)を配置する自然な人間の動きを生成するデータ駆動モデルであるWADRを紹介する。
インテンションはエージェントをゴールに誘導し、サブゴールやモーションパス全体を定義することなく、新しい状況にインタラクティブに世代を適応させる。
提案手法を広範に評価し,3次元目標に到達した自然および長期の動作と,見当たらない目標位置を生成できることを実証する。
論文 参考訳(メタデータ) (2024-04-23T10:20:17Z) - Vision-Language Models as a Source of Rewards [68.52824755339806]
強化学習エージェントの報酬源として市販の視覚言語モデル(VLM)の有効性を検討する。
様々な言語目標の視覚的達成に対する報酬は、CLIPファミリーのモデルから導き出すことができ、様々な言語目標を達成するためのRLエージェントの訓練に使用されることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:06:17Z) - A Song of Ice and Fire: Analyzing Textual Autotelic Agents in
ScienceWorld [21.29303927728839]
行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。
最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。
我々は、社会的仲間のフィードバックから選択性の重要性を示す。その経験は、稀な目標の例を過度にサンプリングする必要がある。
論文 参考訳(メタデータ) (2023-02-10T13:49:50Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Vygotskian Autotelic Artificial Intelligence: Language and Culture
Internalization for Human-Like AI [16.487953861478054]
本稿では,人工寿命スキル発見の探求において,新たなAIパラダイムを提案する。
我々は特に言語に焦点をあて、その構造と内容が人工エージェントにおける新しい認知機能の発展にどう役立つかに注目した。
言語と体格の相互作用から生まれる新しい人工認知機能の例を明らかにすることで、アプローチを正当化する。
論文 参考訳(メタデータ) (2022-06-02T16:35:41Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Learning Object-Centered Autotelic Behaviors with Graph Neural Networks [10.149376933379036]
人間は、学習したいくつかのスキルにアクセスでき、それが新しい状況に迅速に適応する。
人工知能では、本来の目的を表現し、設定するために動機づけられたオートテリックエージェントは、有望なスキル適応能力を示す。
本研究では,4種類のグラフニューラルネットワークポリシー表現と2種類の目標空間を用いて,自律エージェントの異なる実装について検討する。
論文 参考訳(メタデータ) (2022-04-11T14:19:04Z) - Learning with AMIGo: Adversarially Motivated Intrinsic Goals [63.680207855344875]
AMIGoは、Adversarially Motivated Intrinsic Goalsを提案するゴール生成教師である。
提案手法は, 提案する目標の自然なカリキュラムを生成し, エージェントが究極的には, 手続き的に生成する課題を解くことができることを示す。
論文 参考訳(メタデータ) (2020-06-22T10:22:08Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Language as a Cognitive Tool to Imagine Goals in Curiosity-Driven
Exploration [15.255795563999422]
発達機械学習は、人工エージェントが子供のオープンエンドのスキルのレパートリーを学習する方法をモデル化する方法を研究する。
アウト・オブ・ディストリビューションの目標を想像する能力は、創造的な発見とオープンエンドの学習を可能にする鍵である、と私たちは主張する。
プレイグラウンド環境を導入し,この形態のゴール・イマジネーションが,この能力に欠けるエージェントの一般化と探索をいかに改善するかを考察する。
論文 参考訳(メタデータ) (2020-02-21T12:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。