論文の概要: Embodied Concept Learner: Self-supervised Learning of Concepts and
Mapping through Instruction Following
- arxiv url: http://arxiv.org/abs/2304.03767v1
- Date: Fri, 7 Apr 2023 17:59:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 11:20:32.212383
- Title: Embodied Concept Learner: Self-supervised Learning of Concepts and
Mapping through Instruction Following
- Title(参考訳): Embodied Concept Learner: 概念の自己教師型学習と指示追従によるマッピング
- Authors: Mingyu Ding, Yan Xu, Zhenfang Chen, David Daniel Cox, Ping Luo, Joshua
B. Tenenbaum, Chuang Gan
- Abstract要約: 本研究では,対話型3D環境におけるEmbodied Learner Concept (ECL)を提案する。
ロボットエージェントは視覚概念をグラウンディングし、セマンティックマップを構築し、タスクを完了させるためにアクションを計画することができる。
ECLは完全に透明で、長期計画において段階的に解釈可能である。
- 参考スコア(独自算出の注目度): 101.55727845195969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans, even at a very early age, can learn visual concepts and understand
geometry and layout through active interaction with the environment, and
generalize their compositions to complete tasks described by natural languages
in novel scenes. To mimic such capability, we propose Embodied Concept Learner
(ECL) in an interactive 3D environment. Specifically, a robot agent can ground
visual concepts, build semantic maps and plan actions to complete tasks by
learning purely from human demonstrations and language instructions, without
access to ground-truth semantic and depth supervisions from simulations. ECL
consists of: (i) an instruction parser that translates the natural languages
into executable programs; (ii) an embodied concept learner that grounds visual
concepts based on language descriptions; (iii) a map constructor that estimates
depth and constructs semantic maps by leveraging the learned concepts; and (iv)
a program executor with deterministic policies to execute each program. ECL has
several appealing benefits thanks to its modularized design. Firstly, it
enables the robotic agent to learn semantics and depth unsupervisedly acting
like babies, e.g., ground concepts through active interaction and perceive
depth by disparities when moving forward. Secondly, ECL is fully transparent
and step-by-step interpretable in long-term planning. Thirdly, ECL could be
beneficial for the embodied instruction following (EIF), outperforming previous
works on the ALFRED benchmark when the semantic label is not provided. Also,
the learned concept can be reused for other downstream tasks, such as reasoning
of object states. Project page: http://ecl.csail.mit.edu/
- Abstract(参考訳): 人間は、非常に若い段階でも視覚概念を学び、環境との活発な相互作用を通じて幾何学やレイアウトを理解し、その構成を新しい場面で自然言語で記述されたタスクに一般化することができる。
このような能力を模倣するために,インタラクティブな3D環境におけるEmbodied Concept Learner (ECL)を提案する。
具体的には、ロボットエージェントは、人間のデモや言語指示から純粋に学習することで、視覚概念を接地し、セマンティックマップを構築し、タスクを完了するためにアクションを計画することができる。
ECLは以下の通りである。
(i)自然言語を実行可能なプログラムに変換する命令パーサ
二 言語記述に基づいて視覚概念を基礎とする具体化された概念学習者
(iii)奥行きを推定し、学習した概念を利用して意味地図を構成する地図作成者
(iv)各プログラムを実行する決定論的ポリシーを持つプログラム実行者
ECLはモジュール化された設計のおかげで、いくつかの魅力的な利点がある。
第一に、ロボットエージェントは、例えば、アクティブな相互作用を通じて基底概念を解釈し、前進する際の相違によって深度を知覚するなど、乳児のように、意味学と深度を教師なしで学習することができる。
第二に、ESLは完全に透明で、長期計画において段階的に解釈可能である。
第3に、ECLは、意味ラベルが提供されていない場合、ALFREDベンチマークの以前の作業よりも優れたエボディード命令(EIF)に有用である。
また、学習された概念は、オブジェクト状態の推論など、他の下流タスクに再利用することができる。
プロジェクトページ: http://ecl.csail.mit.edu/
関連論文リスト
- Can Language Models Understand Physical Concepts? [45.30953251294797]
言語モデルは、インタラクティブで具体化された世界において、次第に汎用的なインターフェースとなる。
LMが人間の世界で物理的概念を理解できるかは、まだ明らかになっていない。
論文 参考訳(メタデータ) (2023-05-23T13:36:55Z) - Actional Atomic-Concept Learning for Demystifying Vision-Language Navigation [124.07372905781696]
行動原子概念学習(Actical Atomic-Concept Learning, ACL)は、視覚的な観察を行動原子の概念にマッピングしてアライメントを促進する。
AACLは、細粒度(R2R)と高レベル(REVERIEとR2R-Last)のVLNベンチマークで新しい最先端結果を確立する。
論文 参考訳(メタデータ) (2023-02-13T03:08:05Z) - CLIP also Understands Text: Prompting CLIP for Phrase Understanding [65.59857372525664]
Contrastive Language-Image Pretraining (CLIP)は、自然言語による事前学習によって視覚概念を効率的に学習する。
本稿では,CLIPのテキストエンコーダが語句理解の強力な能力を示し,適切な設計のプロンプトでBERTなどの一般的な言語モデルよりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2022-10-11T23:35:18Z) - Visual Superordinate Abstraction for Robust Concept Learning [80.15940996821541]
概念学習は言語意味論と結びついた視覚表現を構成する。
視覚概念の本質的な意味的階層を探索する失敗のボトルネックについて説明する。
本稿では,意味認識型視覚サブ空間を明示的にモデル化するビジュアル・スーパーオーディネート・抽象化・フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-28T14:27:38Z) - Identifying concept libraries from language about object structure [56.83719358616503]
自然言語記述を2Kプロシージャ生成オブジェクトの多種多様なセットに利用して,ユーザが使用する部分を特定する。
我々は、異なる部分概念を含むプログラムライブラリの空間の探索として、この問題を形式化する。
自然言語と構造化されたプログラム表現を組み合わせることで、人々が名前をつける部分概念を規定する基本的な情報理論的なトレードオフを発見する。
論文 参考訳(メタデータ) (2022-05-11T17:49:25Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Explainable Semantic Space by Grounding Language to Vision with
Cross-Modal Contrastive Learning [3.441021278275805]
視覚における言語学習の基盤となる2ストリームモデルを設計する。
このモデルはまず、視覚的表現と言語表現をMS COCOデータセットに合わせることを学習する。
トレーニング後、このモデルの言語ストリームは、視覚的に接地されたセマンティック空間に概念を埋め込むことができるスタンドアロン言語モデルである。
論文 参考訳(メタデータ) (2021-11-13T19:54:15Z) - CLIPort: What and Where Pathways for Robotic Manipulation [35.505615833638124]
広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
論文 参考訳(メタデータ) (2021-09-24T17:44:28Z) - Language (Re)modelling: Towards Embodied Language Understanding [33.50428967270188]
本研究は, 具体的認知言語学(ECL)の理念に基づく表現と学習へのアプローチを提案する。
ECLによると、自然言語は本質的に(プログラミング言語のように)実行可能である。
本稿では,比喩的推論とシミュレーションによるグラウンドディングの利用が,NLUシステムに大きな恩恵をもたらすことを論じる。
論文 参考訳(メタデータ) (2020-05-01T10:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。