論文の概要: CLIPort: What and Where Pathways for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2109.12098v1
- Date: Fri, 24 Sep 2021 17:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:29:00.240105
- Title: CLIPort: What and Where Pathways for Robotic Manipulation
- Title(参考訳): cliport: ロボット操作のための経路と方法
- Authors: Mohit Shridhar, Lucas Manuelli, Dieter Fox
- Abstract要約: 広義の意味理解とトランスポーターの空間的精度を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
我々のフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、様々な言語仕様のテーブルトップタスクを解くことができる。
- 参考スコア(独自算出の注目度): 35.505615833638124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we imbue robots with the ability to manipulate objects precisely but
also to reason about them in terms of abstract concepts? Recent works in
manipulation have shown that end-to-end networks can learn dexterous skills
that require precise spatial reasoning, but these methods often fail to
generalize to new goals or quickly learn transferable concepts across tasks. In
parallel, there has been great progress in learning generalizable semantic
representations for vision and language by training on large-scale internet
data, however these representations lack the spatial understanding necessary
for fine-grained manipulation. To this end, we propose a framework that
combines the best of both worlds: a two-stream architecture with semantic and
spatial pathways for vision-based manipulation. Specifically, we present
CLIPort, a language-conditioned imitation-learning agent that combines the
broad semantic understanding (what) of CLIP [1] with the spatial precision
(where) of Transporter [2]. Our end-to-end framework is capable of solving a
variety of language-specified tabletop tasks from packing unseen objects to
folding cloths, all without any explicit representations of object poses,
instance segmentations, memory, symbolic states, or syntactic structures.
Experiments in simulated and real-world settings show that our approach is data
efficient in few-shot settings and generalizes effectively to seen and unseen
semantic concepts. We even learn one multi-task policy for 10 simulated and 9
real-world tasks that is better or comparable to single-task policies.
- Abstract(参考訳): オブジェクトを正確に操作できるだけでなく、抽象的な概念でそれらを推論できるロボットをどうやって実装できるのか?
近年の操作研究により、エンドツーエンドのネットワークは正確な空間的推論を必要とする巧妙なスキルを習得できることが示されているが、これらの手法は、しばしば新しい目標への一般化やタスク間の転送可能な概念の迅速な学習に失敗している。
並行して、大規模なインターネットデータをトレーニングすることで、視覚と言語に対する一般化可能な意味表現を学習する大きな進歩があったが、これらの表現はきめ細かい操作に必要な空間的理解を欠いている。
この目的のために,視覚操作のための意味的および空間的経路を持つ2ストリームアーキテクチャという,両世界のベストを組み合わせるフレームワークを提案する。
具体的には,CLIP[1]の広い意味理解(何)とTransporter [2]の空間的精度(場所)を組み合わせた言語条件の模倣学習エージェントであるCLIPortを提案する。
私たちのエンドツーエンドフレームワークは、オブジェクトのポーズ、インスタンスのセグメンテーション、メモリ、シンボル状態、構文構造の明示的な表現なしに、目に見えないオブジェクトから折りたたみ布まで、さまざまな言語仕様のテーブルトップタスクを解決できます。
シミュレーションと実世界の環境での実験により,我々のアプローチはデータ効率が低く,視認できない意味概念に効果的に一般化できることが示された。
10のシミュレーションと9の現実世界のタスクに対して、ひとつのマルチタスクポリシーを学習します。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation with Foundation Models [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly-lexically) で合成され,VLM(Vision Language Models) をフリーズしたパッチワイド特徴抽出器として利用するフレームワークである。
本研究では,本手法が4段階のフライ・トゥ・ターゲットタスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - Object-Centric Instruction Augmentation for Robotic Manipulation [29.491990994901666]
我々は,高度にセマンティックで情報に富んだ言語命令を位置情報で拡張するために,textitObject-Centric Instruction Augmentation (OCI)フレームワークを導入する。
MLLM(Multi-modal Large Language Model)を用いて,オブジェクト位置の知識を自然言語に織り込む。
我々は,ロボットマニピュレータの模倣政策が,従来の言語指導にのみ依存する者よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-01-05T13:54:45Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Embodied Concept Learner: Self-supervised Learning of Concepts and
Mapping through Instruction Following [101.55727845195969]
本研究では,対話型3D環境におけるEmbodied Learner Concept (ECL)を提案する。
ロボットエージェントは視覚概念をグラウンディングし、セマンティックマップを構築し、タスクを完了させるためにアクションを計画することができる。
ECLは完全に透明で、長期計画において段階的に解釈可能である。
論文 参考訳(メタデータ) (2023-04-07T17:59:34Z) - Enhancing Interpretability and Interactivity in Robot Manipulation: A
Neurosymbolic Approach [0.0]
本稿では,言語誘導型視覚推論とロボット操作を結合したニューロシンボリックアーキテクチャを提案する。
非熟練の人間ユーザは、制約のない自然言語を用いてロボットに刺激を与え、参照表現(REF)、質問(VQA)、把握動作指示を提供する。
シミュレーション環境では,3次元視覚と言語によるテーブルトップシーンの合成データセットを作成し,我々のアプローチを訓練し,合成シーンと実世界のシーンの両方で広範な評価を行う。
論文 参考訳(メタデータ) (2022-10-03T12:21:45Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations [25.33452947179541]
ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
論文 参考訳(メタデータ) (2022-05-12T19:48:11Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z) - Following Instructions by Imagining and Reaching Visual Goals [8.19944635961041]
本研究では,空間的推論を用いて時間的に拡張されたタスクを学習するための新しいフレームワークを提案する。
本フレームワークは生の画素画像上で動作し,事前の言語的知識や知覚的知識を前提とせず,本質的なモチベーションを通じて学習する。
シミュレーションによる対話型3D環境において,ロボットアームを用いた2つの環境で本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-01-25T23:26:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。