論文の概要: RoboBERT: An End-to-end Multimodal Robotic Manipulation Model
- arxiv url: http://arxiv.org/abs/2502.07837v1
- Date: Tue, 11 Feb 2025 02:16:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:44:57.732282
- Title: RoboBERT: An End-to-end Multimodal Robotic Manipulation Model
- Title(参考訳): RoboBERT: エンドツーエンドのマルチモーダルロボットマニピュレーションモデル
- Authors: Sicheng Wang, Jianhua Shan, Jianwei Zhang, Haozhang Gao, Hailiang Han, Yipeng Chen, Kang Wei, Chengkun Zhang, Kairos Wong, Jie Zhao, Lei Zhao, Bin Fang,
- Abstract要約: 本稿では、ユニークなトレーニング戦略と統合された、新しいエンドツーエンドロボット操作モデルであるRoboBERTを紹介する。
RoboBERTは、言語ラベルのエキスパートデモのみを使用しながら、非常に競争力のある成功率を達成する。
実際のロボットでテストすると、モデルは優れた性能を示し、同じデータで訓練された他の方法よりも高い成功率を達成する。
- 参考スコア(独自算出の注目度): 16.49336015368792
- License:
- Abstract: Embodied intelligence integrates multiple modalities, enabling agents to understand images, language, and actions simultaneously. However, existing models always depend on additional datasets or extensive pre-training to maximize performance improvements, consuming abundant training time and expensive hardware cost. To tackle this issue, we present RoboBERT, a novel end-to-end robotic manipulation model integrated with a unique training strategy. This model utilizes a CNN-based diffusion policy, enhancing and stabilizing the effectiveness of this model by separating training processes for different modalities. It also underscores the importance of data augmentation, verifying various techniques to significantly boost performance. Unlike models that depend on extra data or large foundation models, RoboBERT achieves a highly competitive success rate while using only language-labeled expert demonstrations and maintaining a relatively smaller model size. Specifically, RoboBERT achieves an average length of 4.52 on the CALVIN benchmark for \(ABCD \rightarrow D\) task, setting a new state-of-the-art (SOTA) record. Furthermore, when tested on a real robot, the model demonstrates superior performance, achieving a higher success rate than other methods trained with the same data. We propose that these concepts and methodologies of RoboBERT demonstrate extensive versatility and compatibility, contributing significantly to the development of lightweight multimodal robotic models. The code can be accessed on https://github.com/PeterWangsicheng/RoboBERT
- Abstract(参考訳): エンボディード・インテリジェンス(Embodied Intelligence)は、複数のモダリティを統合し、エージェントが画像、言語、アクションを同時に理解できるようにする。
しかし、既存のモデルは、パフォーマンスの改善を最大化し、十分なトレーニング時間と高価なハードウェアコストを消費するために、追加のデータセットや広範な事前トレーニングに依存している。
この問題に対処するために、ユニークなトレーニング戦略と統合された新しいエンドツーエンドロボット操作モデルRoboBERTを提案する。
このモデルは、CNNに基づく拡散ポリシーを利用して、異なるモードのトレーニングプロセスを分離することで、このモデルの有効性を向上し、安定化する。
また、データ拡張の重要性を強調し、パフォーマンスを大幅に向上させる様々なテクニックを検証する。
余分なデータや大きな基礎モデルに依存するモデルとは異なり、RoboBERTは言語ラベルのエキスパートデモのみを使用しながら、比較的小さなモデルサイズを維持しながら、非常に競争力のある成功率を達成する。
具体的には、RoboBERT は \(ABCD \rightarrow D\) タスクの CALVIN ベンチマークで平均4.52 を達成し、新しい最先端 (SOTA) レコードを設定する。
さらに、実際のロボットでテストすると、モデルは優れた性能を示し、同じデータで訓練された他の方法よりも高い成功率を達成する。
本稿では,これらのRoboBERTの概念と方法論が多目的性と互換性を示し,軽量なマルチモーダルロボットモデルの開発に大きく貢献することを提案する。
コードはhttps://github.com/PeterWangsicheng/RoboBERTでアクセスすることができる。
関連論文リスト
- RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation [47.41571121843972]
96のオブジェクトクラスを含む479のタスクにわたる107kのデモトラジェクトリを含むデータセットであるRoboMINDを紹介した。
RoboMINDは人間の遠隔操作を通じて収集され、総合的なロボット関連情報を含んでいる。
私たちのデータセットには5万個の実世界の障害デモが含まれており、それぞれに詳細な原因が伴い、障害のリフレクションと修正を可能にしています。
論文 参考訳(メタデータ) (2024-12-18T14:17:16Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - The Ingredients for Robotic Diffusion Transformers [47.61690903645525]
我々は,高容量拡散変圧器政策の鍵となる設計決定を同定し,研究し,改善する。
結果として得られるモデルは、複数のロボットエンボディメント上の多様なタスクを効率的に解決することができる。
当社のポリシーは,高度にマルチモーダルな言語アノテートされたALOHA実証データを用いた10時間トレーニングによるスケーリング性能の向上を示す。
論文 参考訳(メタデータ) (2024-10-14T02:02:54Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。