論文の概要: Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation
- arxiv url: http://arxiv.org/abs/2304.13826v1
- Date: Wed, 26 Apr 2023 20:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-28 15:13:34.006937
- Title: Programmatically Grounded, Compositionally Generalizable Robotic
Manipulation
- Title(参考訳): プログラム的接地・構成的一般化可能なロボットマニピュレーション
- Authors: Renhao Wang, Jiayuan Mao, Joy Hsu, Hang Zhao, Jiajun Wu, Yang Gao
- Abstract要約: 意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。
本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。
我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
- 参考スコア(独自算出の注目度): 35.12811184353626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robots operating in the real world require both rich manipulation skills as
well as the ability to semantically reason about when to apply those skills.
Towards this goal, recent works have integrated semantic representations from
large-scale pretrained vision-language (VL) models into manipulation models,
imparting them with more general reasoning capabilities. However, we show that
the conventional pretraining-finetuning pipeline for integrating such
representations entangles the learning of domain-specific action information
and domain-general visual information, leading to less data-efficient training
and poor generalization to unseen objects and tasks. To this end, we propose
ProgramPort, a modular approach to better leverage pretrained VL models by
exploiting the syntactic and semantic structures of language instructions. Our
framework uses a semantic parser to recover an executable program, composed of
functional modules grounded on vision and action across different modalities.
Each functional module is realized as a combination of deterministic
computation and learnable neural networks. Program execution produces
parameters to general manipulation primitives for a robotic end-effector. The
entire modular network can be trained with end-to-end imitation learning
objectives. Experiments show that our model successfully disentangles action
and perception, translating to improved zero-shot and compositional
generalization in a variety of manipulation behaviors. Project webpage at:
\url{https://progport.github.io}.
- Abstract(参考訳): 現実世界で操作するロボットは、リッチな操作スキルと、そのスキルをいつ適用すべきかを意味的に判断する能力の両方を必要とする。
この目標に向けて、最近の研究は、大規模事前学習された視覚言語(VL)モデルから意味表現を操作モデルに統合し、より一般的な推論能力を与える。
しかし、そのような表現を統合するための従来の事前学習ファインタニングパイプラインは、ドメイン固有のアクション情報とドメイン一般の視覚情報の学習を絡み合わせており、データ効率の低いトレーニングや、見えないオブジェクトやタスクへの一般化が不十分であることを示す。
そこで本研究では,言語命令の構文的・意味的構造を活用し,事前学習されたvlモデルをより活用するためのモジュラーアプローチである programport を提案する。
本フレームワークでは,視覚と動作の異なるモジュールからなる実行可能プログラムを,セマンティックパーザを用いて復元する。
各機能モジュールは、決定論的計算と学習可能なニューラルネットワークの組み合わせとして実現される。
プログラムの実行は、ロボットのエンドエフェクタの汎用的な操作プリミティブにパラメータを生成する。
モジュールネットワーク全体は、エンドツーエンドの模倣学習目標でトレーニングすることができる。
実験の結果,動作と知覚を分離し,様々な操作行動においてゼロショットと合成一般化を改善することができた。
project webpage at: \url{https://progport.github.io}
関連論文リスト
- SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Model [45.03115608632622]
空間理解はロボット操作のキーポイントです
本研究では,ロボット基盤モデルのための効果的な空間表現を探索する空間VLAを提案する。
提案したAdaptive Action Gridsは,事前学習したSpatialVLAモデルを微調整し,新しいシミュレーションと実世界のセットアップを実現するための,新しい効果的な方法を提供する。
論文 参考訳(メタデータ) (2025-01-27T07:34:33Z) - Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。
動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。
概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文 参考訳(メタデータ) (2024-07-02T16:50:27Z) - Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。
実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文 参考訳(メタデータ) (2024-06-01T13:28:31Z) - ManipLLM: Embodied Multimodal Large Language Model for Object-Centric
Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。
インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。
シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文 参考訳(メタデータ) (2023-12-24T06:38:11Z) - RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic
Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。
提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文 参考訳(メタデータ) (2023-07-28T21:18:02Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。