論文の概要: RoboBERT: An End-to-end Multimodal Robotic Manipulation Model
- arxiv url: http://arxiv.org/abs/2502.07837v2
- Date: Thu, 01 May 2025 08:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:52.273175
- Title: RoboBERT: An End-to-end Multimodal Robotic Manipulation Model
- Title(参考訳): RoboBERT: エンドツーエンドのマルチモーダルロボットマニピュレーションモデル
- Authors: Sicheng Wang, Sheng Liu, Weiheng Wang, Jianhua Shan, Bin Fang,
- Abstract要約: 本稿では,新しい2段階トレーニングパラダイムを中心に構築された,エンドツーエンドのマルチモーダル操作モデルであるRoboBERTを紹介する。
最初の段階では、視覚エンコーダのほとんどを凍結し、単一の"標準"命令のフレーズで訓練する。
第2段階では、様々な自然言語の変種を注入し、様々な命令を既に学習済みのポリシーに迅速に整合させる。
RoboBERTはCALVIN ABCD-Dベンチマークで4.52、ABC-Dベンチマークで3.79という最先端のエピソードを新たに達成している。
- 参考スコア(独自算出の注目度): 14.668111618071672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied intelligence seamlessly integrates vision, language, and action.~However, most multimodal robotic models rely on massive fine-tuning, incurring high time and hardware costs.~To address this, we introduce RoboBERT, an end-to-end multimodal manipulation model built around a novel two-stage training paradigm.~In the first stage, we freeze most of the vision encoder and train with a single "standard" instruction phrasing, allowing the model to focus on stable policy learning via a CNN-based diffusion policy.~In the second stage, we unfreeze all modules and inject diverse natural language variants, rapidly aligning varied instructions to the already-learned policy without destabilizing performance.~We further employ systematic data augmentations to enhance robustness against visual perturbations.~Without relying on auxiliary datasets, RoboBERT achieves new state-of-the-art (SOTA) mean episode lengths of 4.52 on the CALVIN ABCD-D benchmark and 3.79 on the ABC-D benchmark using only language-labeled expert demonstrations and a comparatively lightweight architecture.Real-robot trials on a 6-DOF manipulator confirm higher success rates than comparable methods trained on identical data.These results demonstrate that our data-augmentation-enhanced two-stage training paradigm delivers efficient, scalable, and broadly applicable performance for multimodal robotic systems.
- Abstract(参考訳): エンボディード・インテリジェンス(Embodied Intelligence)は、視覚、言語、行動をシームレスに統合する。
しかし、ほとんどのマルチモーダルロボットモデルは、大量の微調整と、高い時間とハードウェアコストに頼っています。
これに対処するために,新しい2段階トレーニングパラダイムを中心に構築された,エンドツーエンドのマルチモーダル操作モデルであるRoboBERTを導入する。
第1段階では、視覚エンコーダの大部分を凍結し、単一の"標準"命令のフレーズでトレーニングし、CNNベースの拡散ポリシーによる安定したポリシー学習に集中できるようにします。
第2段階では、全てのモジュールを解凍し、様々な自然言語の変種を注入し、パフォーマンスを不安定にすることなく、様々な命令を既に学習済みのポリシーに迅速に整列させます。
我々はさらに、視覚摂動に対する堅牢性を高めるために、体系的なデータ拡張を取り入れている。
補助的なデータセットを頼らずに、RoboBERTはCALVIN ABCD-Dベンチマークで4.52、ABC-Dベンチマークで3.79という新たな最先端(SOTA)のエピソードを達成し、言語ラベル付き専門家によるデモンストレーションと比較的軽量なアーキテクチャしか使用していない。6-DOFマニピュレータでのリアルロボット試験により、同一データで訓練された同等の手法よりも高い成功率が確認された。
関連論文リスト
- RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins [33.78621017138685]
RoboTwinは、多種多様な専門家データセットを生成するために、3D生成基盤モデルと大規模言語モデルを使用する生成デジタルツインフレームワークである。
具体的には、RoboTwinは単一の2D画像からさまざまなデジタルツインを生成し、現実的でインタラクティブなシナリオを生成する。
我々のフレームワークはシミュレーションデータと実世界のデータの両方で包括的なベンチマークを提供し、標準化された評価とシミュレーショントレーニングと実世界のパフォーマンスの整合性を向上させる。
論文 参考訳(メタデータ) (2025-04-17T16:14:24Z) - MoRE: Unlocking Scalability in Reinforcement Learning for Quadruped Vision-Language-Action Models [34.138699712315]
本稿では、四足歩行ロボットのためのロボット専門家(MoRE)の混合であるビジョンアクション(VLA)モデルを提案する。
MoREは、複数の低ランク適応モジュールを、密集したマルチモーダルな大規模言語モデルの中で異なる専門家として統合する。
実験によると、MoREは6つの異なるスキルで全てのベースラインを上回り、アウト・オブ・ディストリビューションシナリオにおいて優れた一般化能力を示す。
論文 参考訳(メタデータ) (2025-03-11T03:13:45Z) - LargeAD: Large-Scale Cross-Sensor Data Pretraining for Autonomous Driving [52.83707400688378]
LargeADは多用途でスケーラブルなフレームワークで、さまざまな現実世界の運転データセットにわたる大規模3D事前トレーニング用に設計されている。
我々のフレームワークは、VFMを利用して2次元画像から意味的にリッチなスーパーピクセルを抽出し、LiDAR点雲に整列して高品質なコントラストサンプルを生成する。
提案手法は,LDARに基づくセグメント化とオブジェクト検出の両面において,線形探索と微調整の両作業において,最先端の手法よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T18:59:59Z) - A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - The Ingredients for Robotic Diffusion Transformers [47.61690903645525]
我々は,高容量拡散変圧器政策の鍵となる設計決定を同定し,研究し,改善する。
結果として得られるモデルは、複数のロボットエンボディメント上の多様なタスクを効率的に解決することができる。
当社のポリシーは,高度にマルチモーダルな言語アノテートされたALOHA実証データを用いた10時間トレーニングによるスケーリング性能の向上を示す。
論文 参考訳(メタデータ) (2024-10-14T02:02:54Z) - RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation [23.554917579133576]
本稿では,ロボット拡散変換器(RDT)について述べる。
RDTは、マルチモーダリティを効果的に表現するために拡散モデルを構築し、スケーラブルトランスフォーマーの革新的な設計である。
さらに,様々なロボットの動作表現を統一する物理解釈可能な統一行動空間を導入する。
論文 参考訳(メタデータ) (2024-10-10T12:33:46Z) - Robo-MUTUAL: Robotic Multimodal Task Specification via Unimodal Learning [35.42091835421386]
マルチモーダルタスク仕様はロボットの性能向上に不可欠である。
実データに豊富な一元的命令を活用することで,ロボットにマルチモーダルタスク仕様の学習を効果的に教えることができることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:23:02Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - LLARVA: Vision-Action Instruction Tuning Enhances Robot Learning [50.99807031490589]
LLARVAは,ロボット学習タスク,シナリオ,環境を統一するための,新しい指導指導法で訓練されたモデルである。
我々は,Open X-Embodimentデータセットから8.5Mの画像-視覚的トレースペアを生成し,モデルを事前学習する。
実験によって強い性能が得られ、LLARVAは現代のいくつかのベースラインと比較してよく機能することを示した。
論文 参考訳(メタデータ) (2024-06-17T17:55:29Z) - Active Exploration in Bayesian Model-based Reinforcement Learning for Robot Manipulation [8.940998315746684]
ロボットアームのエンドタスクに対するモデルベース強化学習(RL)アプローチを提案する。
我々はベイズニューラルネットワークモデルを用いて、探索中に動的モデルに符号化された信念と情報の両方を確率論的に表現する。
実験により,ベイズモデルに基づくRL手法の利点が示された。
論文 参考訳(メタデータ) (2024-04-02T11:44:37Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Vision-Language Foundation Models as Effective Robot Imitators [48.73027330407576]
我々は、オープンソースのVLMであるOpenFlamingo上に構築されたRoboFlamingoというビジョン言語操作フレームワークを考案した。
テストベンチマークでは,最先端のパフォーマンスをはるかに上回って,ロボット制御にVLMを適用する上で,RoboFlamingoが効果的かつ競争力のある代替手段であることを示す。
論文 参考訳(メタデータ) (2023-11-02T16:34:33Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。