論文の概要: Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic
Agents
- arxiv url: http://arxiv.org/abs/2202.05129v1
- Date: Thu, 10 Feb 2022 16:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-11 19:40:18.337330
- Title: Help Me Explore: Minimal Social Interventions for Graph-Based Autotelic
Agents
- Title(参考訳): グラフベースの自動エージェントのための最小限のソーシャルインターベンション
- Authors: Ahmed Akakzia, Olivier Serris, Olivier Sigaud, C\'edric Colas
- Abstract要約: 本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。
1) HME(Help Me Explore)と呼ばれる新しいソーシャルインタラクションプロトコルでは,個人と社会的に指導された探索の双方から,自律的なエージェントが恩恵を受けることができる。
GANGSTRは、HME内での学習において、最も複雑な構成を習得することで、個々の学習限界を克服する。
- 参考スコア(独自算出の注目度): 7.644107117422287
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the quest for autonomous agents learning open-ended repertoires of skills,
most works take a Piagetian perspective: learning trajectories are the results
of interactions between developmental agents and their physical environment.
The Vygotskian perspective, on the other hand, emphasizes the centrality of the
socio-cultural environment: higher cognitive functions emerge from
transmissions of socio-cultural processes internalized by the agent. This paper
argues that both perspectives could be coupled within the learning of autotelic
agents to foster their skill acquisition. To this end, we make two
contributions: 1) a novel social interaction protocol called Help Me Explore
(HME), where autotelic agents can benefit from both individual and socially
guided exploration. In social episodes, a social partner suggests goals at the
frontier of the learning agent knowledge. In autotelic episodes, agents can
either learn to master their own discovered goals or autonomously rehearse
failed social goals; 2) GANGSTR, a graph-based autotelic agent for manipulation
domains capable of decomposing goals into sequences of intermediate sub-goals.
We show that when learning within HME, GANGSTR overcomes its individual
learning limits by mastering the most complex configurations (e.g. stacks of 5
blocks) with only few social interventions.
- Abstract(参考訳): オープンエンドのスキルのレパートリーを学ぶ自律エージェントの探求において、ほとんどの研究はピアゲティア的な視点を採っている: 学習軌跡は発達エージェントと身体環境の間の相互作用の結果である。
一方、ヴィゴツキーの視点は、社会文化的環境の中心性を強調しており、高い認知機能はエージェントによって内部化された社会文化的プロセスの伝達から生まれる。
本稿では,双方の視点が,自己複製エージェントの学習に組み合わされ,スキル獲得が促進されることを論じる。
この目的のために2つの貢献をします
1)ヘルプ・ミー・エクスプロレーション(ヘルプ・ミー・エクスプロレーション、hme)と呼ばれる新しいソーシャル・インタラクション・プロトコルは、個人的および社会的に誘導された探索の恩恵を受けることができる。
ソーシャルエピソードでは、ソーシャルパートナーが学習エージェント知識のフロンティアにおける目標を提案する。
オートテリックエピソードでは、エージェントは自分たちで発見した目標をマスターするか、失敗した社会的目標を自律的にリハーサルするかを学ぶことができる。
2)GANGSTRは,目標を中間ゴールのシーケンスに分解可能なドメインを操作するためのグラフベースのオートテリックエージェントである。
GANGSTRは,HME内での学習において,社会的介入が少なく,最も複雑な構成(例えば5ブロックのスタック)を習得することで,個々の学習限界を克服することを示した。
関連論文リスト
- Interactive Dialogue Agents via Reinforcement Learning on Hindsight Regenerations [58.65755268815283]
多くの実際の対話は対話的であり、つまりエージェントの発話が会話の相手に影響を与えるか、情報を引き出すか、意見を変えるかである。
この事実を利用して、既存の最適データを書き直し、拡張し、オフライン強化学習(RL)を介してトレーニングする。
実際の人間によるユーザ調査の結果、我々のアプローチは既存の最先端の対話エージェントを大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-11-07T21:37:51Z) - AgentSense: Benchmarking Social Intelligence of Language Agents through Interactive Scenarios [38.878966229688054]
本稿では,対話型シナリオを通して言語エージェントのソーシャルインテリジェンスをベンチマークするAgensSenseを紹介する。
ドラマティック理論に基づいて、エージェントセンスは、広範なスクリプトから構築された1,225の多様な社会的シナリオを作成するためにボトムアップアプローチを採用している。
我々はERG理論を用いて目標を分析し、包括的な実験を行う。
以上の結果から,LPMは複雑な社会シナリオ,特に高レベルの成長ニーズにおいて,目標達成に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-25T07:04:16Z) - I Want to Break Free! Persuasion and Anti-Social Behavior of LLMs in Multi-Agent Settings with Social Hierarchy [13.68625980741047]
本研究では,Large Language Model (LLM) に基づくエージェントの相互作用パターンについて,厳密な社会的階層を特徴とする文脈で検討する。
本研究では,警備員と囚人エージェントが関与するシミュレートシナリオにおける説得と反社会的行動の2つの現象について検討した。
論文 参考訳(メタデータ) (2024-10-09T17:45:47Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - SOTOPIA-$π$: Interactive Learning of Socially Intelligent Language Agents [73.35393511272791]
本稿では,対話型学習手法であるSOTOPIA-$pi$を提案する。
この手法は,大規模言語モデル(LLM)の評価に基づいて,フィルタリングされた社会的相互作用データに対する行動クローニングと自己強化トレーニングを活用する。
論文 参考訳(メタデータ) (2024-03-13T17:17:48Z) - SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents [107.4138224020773]
人工エージェントと人間との複雑な社会的相互作用をシミュレートするオープンエンド環境であるSOTOPIAを提案する。
エージェントは、複雑な社会的目標を達成するために協調し、協力し、交換し、互いに競い合う。
GPT-4は,人間よりも目標達成率が著しく低く,社会的常識的推論や戦略的コミュニケーション能力の発揮に苦慮していることがわかった。
論文 参考訳(メタデータ) (2023-10-18T02:27:01Z) - A Song of Ice and Fire: Analyzing Textual Autotelic Agents in
ScienceWorld [21.29303927728839]
行動の多様性を自律的に発見できるオープンエンドエージェントの構築は、人工知能の長年の目標のひとつだ。
最近の研究で特定された言語は、特に、社会的仲間からの抽象的なゴールサンプリングとガイダンスを可能にするため、独学学習の重要な側面を持っている。
我々は、社会的仲間のフィードバックから選択性の重要性を示す。その経験は、稀な目標の例を過度にサンプリングする必要がある。
論文 参考訳(メタデータ) (2023-02-10T13:49:50Z) - Robot Learning Theory of Mind through Self-Observation: Exploiting the
Intentions-Beliefs Synergy [0.0]
心の理論(みんがく、英: Theory of Mind、TOM)は、他のエージェントの信念、意図、精神状態に起因する能力である。
我々は,意図や目標などの低レベル精神状態を予測する学習と,信念などの高レベル精神状態に寄与する学習の相乗効果を示す。
我々は,今後の適応型社会ロボットの設計に,我々のアーキテクチャ的アプローチが関係することを提案する。
論文 参考訳(メタデータ) (2022-10-17T21:12:39Z) - Hidden Agenda: a Social Deduction Game with Diverse Learned Equilibria [57.74495091445414]
社会的推論ゲームは、個人が他人に関する潜在的に信頼できない情報を合成する方法を学ぶための道を提供する。
本研究では,未知のチームアライメントのシナリオにおいて,学習エージェントを研究するための2D環境を提供する2チームソーシャル推論ゲームであるHidden Agendaを紹介する。
Hidden Agendaで訓練された強化学習エージェントは、自然言語でのコミュニケーションを必要とせずに、協力や投票など、さまざまな行動を学ぶことができることを示した。
論文 参考訳(メタデータ) (2022-01-05T20:54:10Z) - ToM2C: Target-oriented Multi-agent Communication and Cooperation with
Theory of Mind [18.85252946546942]
心の理論(Theory of Mind、ToM)は、効果的なコミュニケーションと協力が可能な社会的に知的なエージェントを構築する。
このアイデアは、協調ナビゲーションとマルチセンサーターゲットカバレッジという、2つの典型的な目標指向型マルチエージェントタスクで実証される。
論文 参考訳(メタデータ) (2021-10-15T18:29:55Z) - Emergent Social Learning via Multi-agent Reinforcement Learning [91.57176641192771]
社会学習は、人間と動物の知性の重要な構成要素である。
本稿では,独立系強化学習エージェントが,社会的学習を用いてパフォーマンスを向上させることを学べるかどうかを検討する。
論文 参考訳(メタデータ) (2020-10-01T17:54:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。