論文の概要: Toddler-Guidance Learning: Impacts of Critical Period on Multimodal AI
Agents
- arxiv url: http://arxiv.org/abs/2201.04990v1
- Date: Wed, 12 Jan 2022 10:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 13:08:54.263083
- Title: Toddler-Guidance Learning: Impacts of Critical Period on Multimodal AI
Agents
- Title(参考訳): Toddler-Guidance Learning: 臨界期がマルチモーダルAIエージェントに与える影響
- Authors: Junseok Park, Kwanyoung Park, Hyunseok Oh, Ganghun Lee, Minsu Lee,
Youngki Lee, Byoung-Tak Zhang
- Abstract要約: 我々は、AIエージェントの学習に臨界周期の概念を適用し、AIエージェントの仮想環境における臨界周期を調査する。
VECAツールキットを用いて幼児のような環境を構築し,幼児の学習特性を模倣する。
我々は、AIエージェントに対する臨界期間の影響を、ユニモーダル学習とマルチモーダル学習の両方において、どのように、いつ最も指導されるかという2つの視点から評価する。
- 参考スコア(独自算出の注目度): 18.610737380842494
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Critical periods are phases during which a toddler's brain develops in
spurts. To promote children's cognitive development, proper guidance is
critical in this stage. However, it is not clear whether such a critical period
also exists for the training of AI agents. Similar to human toddlers,
well-timed guidance and multimodal interactions might significantly enhance the
training efficiency of AI agents as well. To validate this hypothesis, we adapt
this notion of critical periods to learning in AI agents and investigate the
critical period in the virtual environment for AI agents. We formalize the
critical period and Toddler-guidance learning in the reinforcement learning
(RL) framework. Then, we built up a toddler-like environment with VECA toolkit
to mimic human toddlers' learning characteristics. We study three discrete
levels of mutual interaction: weak-mentor guidance (sparse reward), moderate
mentor guidance (helper-reward), and mentor demonstration (behavioral cloning).
We also introduce the EAVE dataset consisting of 30,000 real-world images to
fully reflect the toddler's viewpoint. We evaluate the impact of critical
periods on AI agents from two perspectives: how and when they are guided best
in both uni- and multimodal learning. Our experimental results show that both
uni- and multimodal agents with moderate mentor guidance and critical period on
1 million and 2 million training steps show a noticeable improvement. We
validate these results with transfer learning on the EAVE dataset and find the
performance advancement on the same critical period and the guidance.
- Abstract(参考訳): 臨界期は、幼児の脳がスパルトで発達する段階である。
子どもの認知発達を促進するためには, 適切な指導が重要である。
しかし、AIエージェントの訓練にもそのような臨界期間が存在するかどうかは不明である。
ヒトの幼児と同様、適切な指導とマルチモーダルインタラクションはAIエージェントのトレーニング効率を著しく向上させる可能性がある。
この仮説を検証するため、AIエージェントの学習に臨界周期の概念を適用し、AIエージェントの仮想環境における臨界周期を調査する。
強化学習(RL)フレームワークにおける臨界期間とトドラー指導学習を形式化する。
次に,幼児の学習特性を模倣するvecaツールキットを用いた幼児型環境を構築した。
本研究は,弱いメンター指導(軽度報酬),適度なメンター指導(ヘルパー・リワード),メンター演示(行動クローン)の3つの個別レベルの相互相互作用について検討した。
また,幼児の視点を完全に反映した3万枚の現実画像からなるEAVEデータセットも導入した。
我々は、AIエージェントに対する臨界期間の影響を、ユニモーダル学習とマルチモーダル学習の両方において、どのように、いつ最も指導されるかという2つの視点から評価する。
実験の結果, 指導指導が適度で, 訓練期間が100万, 200万のユニモーダルエージェントとマルチモーダルエージェントの両方で顕著な改善が見られた。
EAVEデータセットの転送学習を用いてこれらの結果を検証し、同じ臨界期間における性能向上とガイダンスを求める。
関連論文リスト
- Interactive Autonomous Navigation with Internal State Inference and
Interactivity Estimation [58.21683603243387]
本稿では,関係時間的推論を伴う3つの補助的タスクを提案し,それらを標準のディープラーニングフレームワークに統合する。
これらの補助的なタスクは、他の対話的エージェントの行動パターンを推測するための追加の監視信号を提供する。
提案手法は,標準評価指標の観点から,頑健かつ最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-11-27T18:57:42Z) - Leveraging Deep Reinforcement Learning for Metacognitive Interventions
across Intelligent Tutoring Systems [7.253181280137071]
本研究は,知能学習システム(ITS)におけるメタ認知的介入を実現するための2つのアプローチを比較する。
実験1では,古典的な人工知能を用いて,生徒を異なるメタ認知グループに分類し,分類されたグループに基づいて静的な介入を行う。
Exp.2では,Deep Reinforcement Learning(DRL)を利用して,生徒のメタ認知レベルの変化を考慮した適応的介入を行った。
論文 参考訳(メタデータ) (2023-04-17T12:10:50Z) - On the Importance of Critical Period in Multi-stage Reinforcement
Learning [18.610737380842494]
近年の研究では、AIエージェントが人間の臨界期に似た学習期間を示した。
適切な刺激を見つけることを強調するため,多段階強化学習を提案する。
論文 参考訳(メタデータ) (2022-08-09T15:17:22Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Persistent Reinforcement Learning via Subgoal Curricula [114.83989499740193]
VaPRL(Value-accelerated Persistent Reinforcement Learning)は、初期状態のカリキュラムを生成する。
VaPRLは、エピソード強化学習と比較して、3桁の精度で必要な介入を減らす。
論文 参考訳(メタデータ) (2021-07-27T16:39:45Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Towards Teachable Autotelic Agents [21.743801780657435]
Teachable Autotelic Agent (TAA) は、内部および教示信号の両方から学習するエージェントである。
本稿では,教育可能な自律エージェントの設計に向けてのロードマップを示す。
論文 参考訳(メタデータ) (2021-05-25T14:28:58Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。