論文の概要: Online Continual Learning For Interactive Instruction Following Agents
- arxiv url: http://arxiv.org/abs/2403.07548v1
- Date: Tue, 12 Mar 2024 11:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:55:18.958727
- Title: Online Continual Learning For Interactive Instruction Following Agents
- Title(参考訳): エージェントによる対話型インストラクションのためのオンライン連続学習
- Authors: Byeonghwi Kim, Minhyuk Seo, Jonghyun Choi
- Abstract要約: このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
本研究では,新しい行動学習と新しい環境学習という,エンボディエージェントのための2つの連続学習環境を提案する。
- 参考スコア(独自算出の注目度): 20.100312650193228
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In learning an embodied agent executing daily tasks via language directives,
the literature largely assumes that the agent learns all training data at the
beginning. We argue that such a learning scenario is less realistic since a
robotic agent is supposed to learn the world continuously as it explores and
perceives it. To take a step towards a more realistic embodied agent learning
scenario, we propose two continual learning setups for embodied agents;
learning new behaviors (Behavior Incremental Learning, Behavior-IL) and new
environments (Environment Incremental Learning, Environment-IL) For the tasks,
previous 'data prior' based continual learning methods maintain logits for the
past tasks. However, the stored information is often insufficiently learned
information and requires task boundary information, which might not always be
available. Here, we propose to update them based on confidence scores without
task boundary information during training (i.e., task-free) in a moving average
fashion, named Confidence-Aware Moving Average (CAMA). In the proposed
Behavior-IL and Environment-IL setups, our simple CAMA outperforms prior state
of the art in our empirical validations by noticeable margins. The project page
including codes is https://github.com/snumprlab/cl-alfred.
- Abstract(参考訳): 言語指示を通して日常的なタスクを実行する具体的エージェントを学ぶ際、文献はエージェントが最初からすべてのトレーニングデータを学習していると仮定する。
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
そこで,より現実的なエージェント学習シナリオに向けて,新しい行動(インクリメンタルラーニング,行動-il)と新しい環境(環境インクリメンタルラーニング,環境-il)の学習,これまでの「データ優先」ベースの連続学習手法が過去のタスクのロジットを維持している。
しかし、記憶された情報はしばしば不十分な学習情報であり、タスク境界情報を必要とする。
そこで本研究では,タスク境界情報(タスクフリー)を平均移動平均値(CAMA)として,タスク境界情報のない信頼性スコアに基づいて更新することを提案する。
提案するbehavior-ilと環境-ilでは,私たちのcamaは,経験的検証において,目に見えるマージンで先行した技術を上回っています。
コードを含むプロジェクトページはhttps://github.com/snumprlab/cl-alfredである。
関連論文リスト
- Exploiting the Semantic Knowledge of Pre-trained Text-Encoders for Continual Learning [70.64617500380287]
継続的な学習は、モデルが学習した知識を維持しながら、新しいデータから学習することを可能にする。
画像のラベル情報で利用できるセマンティック知識は、以前に取得したセマンティッククラスの知識と関連する重要なセマンティック情報を提供する。
テキスト埋め込みを用いて意味的類似性を把握し,タスク内およびタスク間のセマンティックガイダンスの統合を提案する。
論文 参考訳(メタデータ) (2024-08-02T07:51:44Z) - VERSE: Virtual-Gradient Aware Streaming Lifelong Learning with Anytime
Inference [36.61783715563126]
生涯学習をストリーミングすることは、忘れずに継続的な学習を目標とすることで、生涯学習の挑戦的な設定である。
ストリーミング(学習例は1回に1回のみ)である生涯学習に新たなアプローチを導入する。
本稿では,各新しい例に適応し,過去のデータにも順応し,破滅的な忘れ込みを防止できる新しいエンフェクチュアル勾配に基づく連続表現学習手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T07:54:49Z) - LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning [64.55001982176226]
LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
論文 参考訳(メタデータ) (2023-06-05T23:32:26Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Online Continual Learning with Natural Distribution Shifts: An Empirical
Study with Visual Data [101.6195176510611]
オンライン」連続学習は、情報保持とオンライン学習の有効性の両方を評価することができる。
オンライン連続学習では、入力される各小さなデータをまずテストに使用し、次にトレーニングセットに追加し、真にオンラインにします。
本稿では,大規模かつ自然な分布変化を示すオンライン連続視覚学習のための新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2021-08-20T06:17:20Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Meta-learning the Learning Trends Shared Across Tasks [123.10294801296926]
グラディエントベースのメタ学習アルゴリズムは、限られたデータで新しいタスクに素早く適応する。
既存のメタ学習アプローチは、適応中の現在のタスク情報にのみ依存する。
パターン認識型メタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-10-19T08:06:47Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z) - Pre-trained Word Embeddings for Goal-conditional Transfer Learning in
Reinforcement Learning [0.0]
本稿では,事前訓練されたタスク非依存言語モデルによって,目標条件付きRLエージェントをより効率的にする方法について述べる。
私たちは、異なる関連するタスク間の伝達学習を容易にすることで、これを実現します。
論文 参考訳(メタデータ) (2020-07-10T06:42:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。