論文の概要: RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton
- arxiv url: http://arxiv.org/abs/2406.18977v1
- Date: Thu, 27 Jun 2024 08:13:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-28 14:47:16.758879
- Title: RoboUniView: Visual-Language Model with Unified View Representation for Robotic Manipulaiton
- Title(参考訳): RoboUniView:ロボットマニピュレイトンのための統一ビュー表現を用いた視覚言語モデル
- Authors: Fanfan Liu, Feng Yan, Liming Zheng, Chengjian Feng, Yiyang Huang, Lin Ma,
- Abstract要約: 動作学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。
我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。
我々は、要求されるCALVINベンチマークの最先端のパフォーマンスを達成し、D$が88.7%から96.2%に、ABC$が82.4%から94.2%に上昇した。
- 参考スコア(独自算出の注目度): 10.54770475137596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing Vision-Language Models (VLMs) for robotic manipulation represents a novel paradigm, aiming to enhance the model's ability to generalize to new objects and instructions. However, due to variations in camera specifications and mounting positions, existing methods exhibit significant performance disparities across different robotic platforms. To address this challenge, we propose RoboUniView in this paper, an innovative approach that decouples visual feature extraction from action learning. We first learn a unified view representation from multi-perspective views by pre-training on readily accessible data, and then derive actions from this unified view representation to control robotic manipulation. This unified view representation more accurately mirrors the physical world and is not constrained by the robotic platform's camera parameters. Thanks to this methodology, we achieve state-of-the-art performance on the demanding CALVIN benchmark, enhancing the success rate in the $D \to D$ setting from 88.7% to 96.2%, and in the $ABC \to D$ setting from 82.4% to 94.2%. Moreover, our model exhibits outstanding adaptability and flexibility: it maintains high performance under unseen camera parameters, can utilize multiple datasets with varying camera parameters, and is capable of joint cross-task learning across datasets. Code is provided for re-implementation. https://github.com/liufanfanlff/RoboUniview
- Abstract(参考訳): ロボット操作のためのビジョンランゲージモデル(VLM)の利用は、新しいオブジェクトや命令に一般化するモデルの能力を高めることを目的とした、新しいパラダイムである。
しかし、カメラの仕様や設置位置の変化により、既存の手法は異なるロボットプラットフォーム間で大きな性能格差を示す。
この課題に対処するために,アクション学習から視覚的特徴抽出を分離する革新的なアプローチであるRoboUniViewを提案する。
我々はまず、アクセスしやすいデータに基づいて事前学習することで、多視点ビューから統一されたビュー表現を学び、その後、この統合されたビュー表現からアクションを導出し、ロボット操作を制御する。
この統合ビュー表現は、物理的な世界をより正確に反映し、ロボットプラットフォームのカメラパラメータに制約されない。
この手法により、要求されるCALVINベンチマークの最先端性能を達成し、D \to D$設定が88.7%から96.2%、ABC \to D$設定が82.4%から94.2%に向上する。
さらに,本モデルでは,未知のカメラパラメータの下で高い性能を維持し,様々なカメラパラメータを持つ複数のデータセットを利用でき,データセット間のクロスタスク学習を共同で行うことが可能である。
コードは再実装のために提供される。
https://github.com/liufanfanlff/RoboUniview
関連論文リスト
- Keypoint Abstraction using Large Models for Object-Relative Imitation Learning [78.92043196054071]
多様なタスクや環境にまたがる新しいオブジェクト構成やインスタンスへの一般化は、ロボット工学において重要な課題である。
キーポイントに基づく表現は、本質的なオブジェクトキャプチャ機能のための簡潔な表現として有効であることが証明されている。
本稿では,タスク関連およびクロスインスタンス整合性キーポイントの自動生成に,大規模な事前学習型視覚言語モデルを活用するフレームワークであるKALMを提案する。
論文 参考訳(メタデータ) (2024-10-30T17:37:31Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Multi-View Masked World Models for Visual Robotic Manipulation [132.97980128530017]
ランダムにマスキングされた視点の画素を再構成するマルチビューマスキングオートエンコーダを訓練する。
提案手法の有効性を様々なシナリオで示す。
また、複数のランダム化視点で訓練された多視点マスク付きオートエンコーダは、強い視点ランダム化を持つポリシーを訓練することができることを示した。
論文 参考訳(メタデータ) (2023-02-05T15:37:02Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z) - Learning a generative model for robot control using visual feedback [7.171234436165255]
本稿では,ロボット制御に視覚フィードバックを取り入れた新しい定式化を提案する。
モデルにおける推論により,特徴のターゲット位置に対応するロボット状態を推測することができる。
本研究では,不正確な制御を行うロボットに対して,握りとタイトな挿入を実行することで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-03-10T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。