論文の概要: LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
- arxiv url: http://arxiv.org/abs/2306.03310v2
- Date: Sat, 14 Oct 2023 15:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 04:49:47.589637
- Title: LIBERO: Benchmarking Knowledge Transfer for Lifelong Robot Learning
- Title(参考訳): LIBERO:生涯ロボット学習のための知識伝達のベンチマーク
- Authors: Bo Liu, Yifeng Zhu, Chongkai Gao, Yihao Feng, Qiang Liu, Yuke Zhu,
Peter Stone
- Abstract要約: LIBEROは、ロボット操作のための生涯学習の新しいベンチマークである。
宣言的知識、手続き的知識、あるいは両者の混在を効率的に伝達する方法に焦点を当てる。
我々は、無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
- 参考スコア(独自算出の注目度): 64.55001982176226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lifelong learning offers a promising paradigm of building a generalist agent
that learns and adapts over its lifespan. Unlike traditional lifelong learning
problems in image and text domains, which primarily involve the transfer of
declarative knowledge of entities and concepts, lifelong learning in
decision-making (LLDM) also necessitates the transfer of procedural knowledge,
such as actions and behaviors. To advance research in LLDM, we introduce
LIBERO, a novel benchmark of lifelong learning for robot manipulation.
Specifically, LIBERO highlights five key research topics in LLDM: 1) how to
efficiently transfer declarative knowledge, procedural knowledge, or the
mixture of both; 2) how to design effective policy architectures and 3)
effective algorithms for LLDM; 4) the robustness of a lifelong learner with
respect to task ordering; and 5) the effect of model pretraining for LLDM. We
develop an extendible procedural generation pipeline that can in principle
generate infinitely many tasks. For benchmarking purpose, we create four task
suites (130 tasks in total) that we use to investigate the above-mentioned
research topics. To support sample-efficient learning, we provide high-quality
human-teleoperated demonstration data for all tasks. Our extensive experiments
present several insightful or even unexpected discoveries: sequential
finetuning outperforms existing lifelong learning methods in forward transfer,
no single visual encoder architecture excels at all types of knowledge
transfer, and naive supervised pretraining can hinder agents' performance in
the subsequent LLDM. Check the website at https://libero-project.github.io for
the code and the datasets.
- Abstract(参考訳): 生涯学習は、その寿命を学習し適応するジェネラリストエージェントを構築するという有望なパラダイムを提供する。
画像やテキスト領域における伝統的な生涯学習問題とは違い、主に実体や概念の宣言的知識の伝達を伴うが、意思決定における生涯学習は行動や行動などの手続き的知識の伝達も必要である。
LLDMの研究を進めるために,ロボット操作のための生涯学習のベンチマークであるLIBEROを紹介する。
特に、LIBEROはLLDMにおける5つの重要な研究トピックを強調している。
1) 宣言的知識,手続的知識又は両者の混在を効率的に伝達する方法
2 効果的な政策建築の設計方法及び方法
3) LLDMの有効なアルゴリズム
4)タスクの順序付けに関する生涯学習者の頑健性
5) lldmのモデル事前学習の効果について。
無限に多くのタスクを生成できる拡張可能な手続き生成パイプラインを開発した。
ベンチマークのために、上記の研究トピックを調査するために使用する4つのタスクスイート(合計130タスク)を作成します。
サンプル効率の学習を支援するため,全てのタスクに対して高品質な人間操作型実演データを提供する。
逐次微調整(Sequence Finetuning)は、既存の生涯学習法を前向きに上回り、単一の視覚エンコーダアーキテクチャは、あらゆる種類の知識伝達に優れず、教師付き事前学習は、その後のLLDMにおけるエージェントのパフォーマンスを阻害する。
コードとデータセットはhttps://libero-project.github.ioにある。
関連論文リスト
- Online Continual Learning For Interactive Instruction Following Agents [20.100312650193228]
このような学習シナリオは,ロボットエージェントが世界を探索し,知覚する上で,継続的に世界を学ぶことが求められているため,現実的ではない,と我々は主張する。
本研究では,新しい行動学習と新しい環境学習という,エンボディエージェントのための2つの連続学習環境を提案する。
論文 参考訳(メタデータ) (2024-03-12T11:33:48Z) - COOLer: Class-Incremental Learning for Appearance-Based Multiple Object
Tracking [32.47215340215641]
本稿では,連続学習研究の範囲を,複数物体追跡(MOT)のためのクラス増分学習に拡張する。
オブジェクト検出器の連続学習のための従来のソリューションは、外見に基づくトラッカーのデータ関連ステージには対応していない。
我々は,Contrastive- and cOntinual-LearningベースのトラッカーであるCOOLerを紹介した。
論文 参考訳(メタデータ) (2023-10-04T17:49:48Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - Task-Attentive Transformer Architecture for Continual Learning of
Vision-and-Language Tasks Using Knowledge Distillation [18.345183818638475]
連続学習(CL)は、逐次到着するタスク間で知識伝達を可能にすることで、治療の役割を果たす。
バイモーダル・ビジョン・アンド・ランゲージ・タスクを学習するためのトランスフォーマーベースのCLアーキテクチャを開発した。
私たちのアプローチは、メモリと時間のオーバーヘッドが少ないため、多数のタスクにスケーラブルに学習するものです。
論文 参考訳(メタデータ) (2023-03-25T10:16:53Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Lifelong Reinforcement Learning with Temporal Logic Formulas and Reward
Machines [30.161550541362487]
逐次線形時間論理式とReward Machines(LSRM)を用いた長寿命強化学習を提案する。
まず、線形時間論理(SLTL)を導入し、既存の線形時間論理言語を補足する。
次に、Reward Machines (RM) を用いて、高レベルイベントを符号化したタスクの構造的報酬関数を利用する。
論文 参考訳(メタデータ) (2021-11-18T02:02:08Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - COG: Connecting New Skills to Past Experience with Offline Reinforcement
Learning [78.13740204156858]
我々は、動的プログラミングによって新しいスキルを拡張するために、事前データを再利用できることを示します。
我々は、新しいタスクを解決するために、以前のデータセットに見られるいくつかの動作をチェーンすることで、アプローチの有効性を実証する。
我々は、高次元画像観察を低レベルのロボット制御コマンドにマッピングし、エンドツーエンドでポリシーを訓練する。
論文 参考訳(メタデータ) (2020-10-27T17:57:29Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。