論文の概要: Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2304.13826v1
- Date: Wed, 26 Apr 2023 20:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 15:13:34.006937
- Title: Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation
- Title(参考訳): プログラム的接地・構成的一般化可能なロボットマニピュレーション
- Authors: Renhao Wang, Jiayuan Mao, Joy Hsu, Hang Zhao, Jiajun Wu, Yang Gao
- Abstract要約: 意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
- 参考スコア(独自算出の注目度): 35.12811184353626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots operating in the real world require both rich manipulation skills as
well as the ability to semantically reason about when to apply those skills.
Towards this goal, recent works have integrated semantic representations from
large-scale pretrained vision-language (VL) models into manipulation models,
imparting them with more general reasoning capabilities. However, we show that
the conventional pretraining-finetuning pipeline for integrating such
representations entangles the learning of domain-specific action information
and domain-general visual information, leading to less data-efficient training
and poor generalization to unseen objects and tasks. To this end, we propose
ProgramPort, a modular approach to better leverage pretrained VL models by
exploiting the syntactic and semantic structures of language instructions. Our
framework uses a semantic parser to recover an executable program, composed of
functional modules grounded on vision and action across different modalities.
Each functional module is realized as a combination of deterministic
computation and learnable neural networks. Program execution produces
parameters to general manipulation primitives for a robotic end-effector. The
entire modular network can be trained with end-to-end imitation learning
objectives. Experiments show that our model successfully disentangles action
and perception, translating to improved zero-shot and compositional
generalization in a variety of manipulation behaviors. Project webpage at:
\url{https://progport.github.io}.
- Abstract(参考訳): 現実世界で操作するロボットは、リッチな操作スキルと、そのスキルをいつ適用すべきかを意味的に判断する能力の両方を必要とする。
この目標に向けて、最近の研究は、大規模事前学習された視覚言語(VL)モデルから意味表現を操作モデルに統合し、より一般的な推論能力を与える。
しかし、そのような表現を統合するための従来の事前学習ファインタニングパイプラインは、ドメイン固有のアクション情報とドメイン一般の視覚情報の学習を絡み合わせており、データ効率の低いトレーニングや、見えないオブジェクトやタスクへの一般化が不十分であることを示す。
そこで本研究では,言語命令の構文的・意味的構造を活用し,事前学習されたvlモデルをより活用するためのモジュラーアプローチである programport を提案する。
本フレームワークでは,視覚と動作の異なるモジュールからなる実行可能プログラムを,セマンティックパーザを用いて復元する。
各機能モジュールは、決定論的計算と学習可能なニューラルネットワークの組み合わせとして実現される。
プログラムの実行は、ロボットのエンドエフェクタの汎用的な操作プリミティブにパラメータを生成する。
モジュールネットワーク全体は、エンドツーエンドの模倣学習目標でトレーニングすることができる。
実験の結果,動作と知覚を分離し,様々な操作行動においてゼロショットと合成一般化を改善することができた。
project webpage at: \url{https://progport.github.io}
関連論文リスト
- MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual
Prompting [106.53784213239479]
Moka(Marking Open-vocabulary Keypoint Affordances)は,視覚言語モデルを用いたロボット操作タスクの解法である。
我々のアプローチの核心は、物理的世界におけるVLMのRGB画像とロボットの動きの予測を橋渡しする、手頃さと動きのコンパクトなポイントベース表現である。
我々は,自由形式の言語記述によって規定される様々な操作タスクに対して,Mokaの性能を評価し,分析する。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z) - SAGE: Bridging Semantic and Actionable Parts for GEneralizable
Articulated-Object Manipulation under Language Instructions [10.066859360077716]
SAGEは、言語命令の下で汎用的な操作を実現するために、音声で表現されたオブジェクトの意味的および動作可能な部分の理解を橋渡しするフレームワークである。
我々のフレームワークは多種多様な言語で指示された目的を持った多種多様なオブジェクトを扱えることを示す。
また,現実的なシナリオにおける言語誘導音声オブジェクト操作のための新しいベンチマークも提供する。
論文 参考訳(メタデータ) (2023-12-03T07:22:42Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Instruct2Act: Mapping Multi-modality Instructions to Robotic Actions
with Large Language Model [63.66204449776262]
Instruct2Actは、ロボット操作タスクのシーケンシャルアクションにマルチモーダル命令をマッピングするフレームワークである。
我々のアプローチは、様々な命令のモダリティや入力タイプを調節する上で、調整可能で柔軟なものである。
我々のゼロショット法は、いくつかのタスクにおいて、最先端の学習ベースのポリシーよりも優れていた。
論文 参考訳(メタデータ) (2023-05-18T17:59:49Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。