Fugu-MT 論文翻訳(概要): Programmatically Grounded, Compositionally Generalizable Robotic Manipulation

論文の概要: Programmatically Grounded, Compositionally Generalizable Robotic Manipulation

arxiv url: http://arxiv.org/abs/2304.13826v1
Date: Wed, 26 Apr 2023 20:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-28 15:13:34.006937
Title: Programmatically Grounded, Compositionally Generalizable Robotic Manipulation
Title（参考訳）: プログラム的接地・構成的一般化可能なロボットマニピュレーション
Authors: Renhao Wang, Jiayuan Mao, Joy Hsu, Hang Zhao, Jiajun Wu, Yang Gao
Abstract要約: 意味表現を統合化するための従来の事前学習ファインタニングパイプラインは、ドメイン固有の行動情報の学習に絡み合っていることを示す。本稿では,言語命令の統語的構造と意味的構造を利用して,事前学習モデルを活用するモジュール方式を提案する。我々のモデルは、様々な操作行動において、ゼロショットと合成の一般化を改善するために、動作と知覚をうまく切り離すことに成功している。
参考スコア（独自算出の注目度）: 35.12811184353626
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Robots operating in the real world require both rich manipulation skills as well as the ability to semantically reason about when to apply those skills. Towards this goal, recent works have integrated semantic representations from large-scale pretrained vision-language (VL) models into manipulation models, imparting them with more general reasoning capabilities. However, we show that the conventional pretraining-finetuning pipeline for integrating such representations entangles the learning of domain-specific action information and domain-general visual information, leading to less data-efficient training and poor generalization to unseen objects and tasks. To this end, we propose ProgramPort, a modular approach to better leverage pretrained VL models by exploiting the syntactic and semantic structures of language instructions. Our framework uses a semantic parser to recover an executable program, composed of functional modules grounded on vision and action across different modalities. Each functional module is realized as a combination of deterministic computation and learnable neural networks. Program execution produces parameters to general manipulation primitives for a robotic end-effector. The entire modular network can be trained with end-to-end imitation learning objectives. Experiments show that our model successfully disentangles action and perception, translating to improved zero-shot and compositional generalization in a variety of manipulation behaviors. Project webpage at: \url{https://progport.github.io}.
Abstract（参考訳）: 現実世界で操作するロボットは、リッチな操作スキルと、そのスキルをいつ適用すべきかを意味的に判断する能力の両方を必要とする。この目標に向けて、最近の研究は、大規模事前学習された視覚言語(VL)モデルから意味表現を操作モデルに統合し、より一般的な推論能力を与える。しかし、そのような表現を統合するための従来の事前学習ファインタニングパイプラインは、ドメイン固有のアクション情報とドメイン一般の視覚情報の学習を絡み合わせており、データ効率の低いトレーニングや、見えないオブジェクトやタスクへの一般化が不十分であることを示す。そこで本研究では,言語命令の構文的・意味的構造を活用し,事前学習されたvlモデルをより活用するためのモジュラーアプローチである programport を提案する。本フレームワークでは,視覚と動作の異なるモジュールからなる実行可能プログラムを,セマンティックパーザを用いて復元する。各機能モジュールは、決定論的計算と学習可能なニューラルネットワークの組み合わせとして実現される。プログラムの実行は、ロボットのエンドエフェクタの汎用的な操作プリミティブにパラメータを生成する。モジュールネットワーク全体は、エンドツーエンドの模倣学習目標でトレーニングすることができる。実験の結果,動作と知覚を分離し,様々な操作行動においてゼロショットと合成一般化を改善することができた。 project webpage at: \url{https://progport.github.io}

関連論文リスト

$π_{0.5}$: a Vision-Language-Action Model with Open-World Generalization [81.73746512639283]
広義の一般化を実現するために異種タスクのコトレーニングを利用する$pi_0.5$に基づく新しいモデルについて述べる。本研究では,エンド・ツー・エンドの学習支援ロボットシステムが,長期的かつ巧妙な操作能力を発揮することを初めて実証する。
論文参考訳（メタデータ） (2025-04-22T17:31:29Z)
RoboAct-CLIP: Video-Driven Pre-training of Atomic Action Understanding for Robotics [22.007302996282085]
本稿では,コントラスト言語-画像事前学習(CLIP)アーキテクチャに基づく時間分解微調整戦略を提案する。シミュレーション環境での結果は,RoboAct-CLIP事前学習モデルがベースラインのビジュアル言語モデルよりも12%高い成功率を達成することを示す。
論文参考訳（メタデータ） (2025-04-02T19:02:08Z)
Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。 LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文参考訳（メタデータ） (2024-10-15T16:28:09Z)
A Pattern Language for Machine Learning Tasks [0.0]
我々は客観的関数を学習者の行動に関する制約と見なしている。動作の中核となるタスクと実装の詳細を分離できる形式的なグラフィカル言語を開発する。概念実証として、「マニピュレータ」と呼ぶ生成モデルに分類器を変換できる新しいタスクを設計する。
論文参考訳（メタデータ） (2024-07-02T16:50:27Z)
Learning Manipulation by Predicting Interaction [85.57297574510507]
本稿では,インタラクションを予測して操作を学習する一般的な事前学習パイプラインを提案する。実験の結果,MPIは従来のロボットプラットフォームと比較して10%から64%向上していることがわかった。
論文参考訳（メタデータ） (2024-06-01T13:28:31Z)
ManipLLM: Embodied Multimodal Large Language Model for Object-Centric Robotic Manipulation [22.071450379253235]
MLLM(Multimodal Large Language Models)の頑健な推論機能を活用したロボット操作のための革新的なアプローチを提案する。インジェクトアダプタの微調整により,MLLMの固有共通感覚と推論能力を保ちながら,操作能力も備えている。シミュレータと実世界の実験は,ManipLLMの有望な性能を示している。
論文参考訳（メタデータ） (2023-12-24T06:38:11Z)
RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control [140.48218261864153]
本研究では,インターネット規模のデータに基づいて学習した視覚言語モデルを,エンドツーエンドのロボット制御に直接組み込む方法について検討する。提案手法は,インターネット規模のトレーニングから,RT-2による創発的能力の獲得を可能にした。
論文参考訳（メタデータ） (2023-07-28T21:18:02Z)
VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文参考訳（メタデータ） (2023-07-12T07:40:48Z)
Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文参考訳（メタデータ） (2023-06-09T07:22:12Z)
Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文参考訳（メタデータ） (2022-02-03T18:55:52Z)
Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。 i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文参考訳（メタデータ） (2020-10-11T01:40:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。