論文の概要: A Song of Ice and Fire: Analyzing Textual Autotelic Agents in
ScienceWorld
- arxiv url: http://arxiv.org/abs/2302.05244v2
- Date: Mon, 13 Feb 2023 11:18:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 11:32:43.483722
- Title: A Song of Ice and Fire: Analyzing Textual Autotelic Agents in
ScienceWorld
- Title(参考訳): 氷と火の歌:サイエンスワールドにおけるテクスチュアルオートテリックエージェントの分析
- Authors: Laetitia Teodorescu, Eric Yuan, Marc-Alexandre C\^ot\'e, Pierre-Yves
Oudeyer
- Abstract要約: 行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。
最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。
我々は、社会的仲間のフィードバックから選択性の重要性を示す。その経験は、稀な目標の例を過度にサンプリングする必要がある。
- 参考スコア(独自算出の注目度): 21.29303927728839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building open-ended agents that can autonomously discover a diversity of
behaviours is one of the long-standing goals of artificial intelligence. This
challenge can be studied in the framework of autotelic RL agents, i.e. agents
that learn by selecting and pursuing their own goals, self-organizing a
learning curriculum. Recent work identified language has a key dimension of
autotelic learning, in particular because it enables abstract goal sampling and
guidance from social peers for hindsight relabelling. Within this perspective,
we study the following open scientific questions: What is the impact of
hindsight feedback from a social peer (e.g. selective vs. exhaustive)? How can
the agent learn from very rare language goal examples in its experience replay?
How can multiple forms of exploration be combined, and take advantage of easier
goals as stepping stones to reach harder ones? To address these questions, we
use ScienceWorld, a textual environment with rich abstract and combinatorial
physics. We show the importance of selectivity from the social peer's feedback;
that experience replay needs to over-sample examples of rare goals; and that
following self-generated goal sequences where the agent's competence is
intermediate leads to significant improvements in final performance.
- Abstract(参考訳): 行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。
この課題は、自発的なrlエージェントの枠組み、すなわち、学習カリキュラムを自己組織化することで学習するエージェントの枠組みで研究することができる。
最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。
この観点で、我々は以下のオープンな科学的疑問を調査する: 社会的仲間(例えば、選択的対排他的)からの後視的フィードバックの影響は?
エージェントは、経験的なリプレイで非常に稀な言語目標例からどのように学ぶことができるのか?
複数の形態の探査を組み合わせることで、より簡単な目標を、より難しいものに到達するための踏み台として活用できるだろうか?
これらの問題に対処するために、私たちは、抽象的および組合せ的物理学の豊富なテキスト環境であるscienceworldを使っています。
我々は,ソーシャル・ピアのフィードバックから選択性を選択することの重要性,レア・ゴールの例をオーバーサンプリングする必要があること,エージェントの能力が中間的な自己生成目標シーケンスに従えば,最終的なパフォーマンスが大幅に向上することを示す。
関連論文リスト
- AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - Augmenting Autotelic Agents with Large Language Models [24.16977502082188]
言語モデル拡張オートテリックエージェント(LMA3)を導入する。
LMA3は多様で抽象的で人間に関連する目標の表現、生成、学習をサポートする。
LMA3エージェントはタスクに依存しないテキストベースの環境において,多種多様なスキルを習得する。
論文 参考訳(メタデータ) (2023-05-21T15:42:41Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Bisimulation Makes Analogies in Goal-Conditioned Reinforcement Learning [71.52722621691365]
リッチな観測から汎用的な目標条件エージェントを構築することは、実世界の問題を解決するための強化学習(RL)の鍵となる。
目的条件ビシミュレーションと呼ばれる新しい状態抽象化法を提案する。
この抽象概念の計量形式を用いてこの表現を学習し、シミュレーション操作タスクにおける新しい目標に一般化する能力を示す。
論文 参考訳(メタデータ) (2022-04-27T17:00:11Z) - Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic
Agents [7.644107117422287]
本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。
1) HME(Help Me Explore)と呼ばれる新しいソーシャルインタラクションプロトコルでは,個人と社会的に指導された探索の双方から,自律的なエージェントが恩恵を受けることができる。
GANGSTRは、HME内での学習において、最も複雑な構成を習得することで、個々の学習限界を克服する。
論文 参考訳(メタデータ) (2022-02-10T16:34:28Z) - Lipschitz-constrained Unsupervised Skill Discovery [91.51219447057817]
LSD(Lipschitz-Constrained Skill Discovery)は、エージェントがより多様性があり、ダイナミックで、より遠縁なスキルを発見することを奨励する。
LSDは7つの下流タスクにおいて、スキルの多様性、状態空間のカバレッジ、パフォーマンスという点で、従来のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-02-02T08:29:04Z) - Discovering and Achieving Goals via World Models [61.95437238374288]
この問題に対する統一的なソリューションであるLatent Explorer Achiever (LEXA)を紹介する。
LEXAはイメージ入力から世界モデルを学び、それをエクスプローラーのトレーニングや、想像上のロールアウトから達成ポリシーに利用する。
教師なしフェーズの後、LEXAは追加の学習なしにゴール画像ゼロショットとして指定されたタスクを解決する。
論文 参考訳(メタデータ) (2021-10-18T17:59:58Z) - GRIMGEP: Learning Progress for Robust Goal Sampling in Visual Deep
Reinforcement Learning [21.661530291654692]
本稿では,ノイズの発散する領域を自律的に識別・無視するフレームワークを提案する。
我々のフレームワークは、ゴール探索アプローチを求める最先端のノベルティと組み合わせることができる。
論文 参考訳(メタデータ) (2020-08-10T19:50:06Z) - Automatic Curriculum Learning through Value Disagreement [95.19299356298876]
新しい未解決タスクを継続的に解決することが、多様な行動を学ぶための鍵です。
エージェントが複数の目標を達成する必要があるマルチタスク領域では、トレーニング目標の選択はサンプル効率に大きな影響を与える可能性がある。
そこで我々は,エージェントが解決すべき目標のための自動カリキュラムを作成することを提案する。
提案手法は,13のマルチゴールロボットタスクと5つのナビゲーションタスクにまたがって評価し,現在の最先端手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2020-06-17T03:58:25Z) - Language as a Cognitive Tool to Imagine Goals in Curiosity-Driven
Exploration [15.255795563999422]
発達機械学習は、人工エージェントが子供のオープンエンドのスキルのレパートリーを学習する方法をモデル化する方法を研究する。
アウト・オブ・ディストリビューションの目標を想像する能力は、創造的な発見とオープンエンドの学習を可能にする鍵である、と私たちは主張する。
プレイグラウンド環境を導入し,この形態のゴール・イマジネーションが,この能力に欠けるエージェントの一般化と探索をいかに改善するかを考察する。
論文 参考訳(メタデータ) (2020-02-21T12:59:57Z) - Mutual Information-based State-Control for Intrinsically Motivated
Reinforcement Learning [102.05692309417047]
強化学習において、エージェントは、外部報酬信号を用いて一連の目標に到達することを学習する。
自然界では、知的生物は内部の駆動から学習し、外部の信号を必要としない。
目的状態と制御可能な状態の間の相互情報として本質的な目的を定式化する。
論文 参考訳(メタデータ) (2020-02-05T19:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。