論文の概要: EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
- arxiv url: http://arxiv.org/abs/2501.01895v1
- Date: Fri, 03 Jan 2025 17:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 16:38:31.641471
- Title: EnerVerse: Envisioning Embodied Future Space for Robotics Manipulation
- Title(参考訳): EnerVerse:ロボット操作のための身体的な未来空間を構想
- Authors: Siyuan Huang, Liliang Chen, Pengfei Zhou, Shengcong Chen, Zhengkai Jiang, Yue Hu, Peng Gao, Hongsheng Li, Maoqing Yao, Guanghui Ren,
- Abstract要約: 本稿では,ロボット操作タスクに特化して設計された将来宇宙開発のための包括的フレームワークを提案する。
本稿では,一括一方向生成パラダイムと組み合わさったスパースメモリコンテキストを提案し,無限長列の生成を可能にする。
マルチカメラ観測の禁止コストと労働強度に対処するため,4次元ガウススプラッティング(4DGS)と生成モデルを統合したデータエンジンパイプラインを提案する。
- 参考スコア(独自算出の注目度): 52.27555234124766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce EnerVerse, a comprehensive framework for embodied future space generation specifically designed for robotic manipulation tasks. EnerVerse seamlessly integrates convolutional and bidirectional attention mechanisms for inner-chunk space modeling, ensuring low-level consistency and continuity. Recognizing the inherent redundancy in video data, we propose a sparse memory context combined with a chunkwise unidirectional generative paradigm to enable the generation of infinitely long sequences. To further augment robotic capabilities, we introduce the Free Anchor View (FAV) space, which provides flexible perspectives to enhance observation and analysis. The FAV space mitigates motion modeling ambiguity, removes physical constraints in confined environments, and significantly improves the robot's generalization and adaptability across various tasks and settings. To address the prohibitive costs and labor intensity of acquiring multi-camera observations, we present a data engine pipeline that integrates a generative model with 4D Gaussian Splatting (4DGS). This pipeline leverages the generative model's robust generalization capabilities and the spatial constraints provided by 4DGS, enabling an iterative enhancement of data quality and diversity, thus creating a data flywheel effect that effectively narrows the sim-to-real gap. Finally, our experiments demonstrate that the embodied future space generation prior substantially enhances policy predictive capabilities, resulting in improved overall performance, particularly in long-range robotic manipulation tasks.
- Abstract(参考訳): 本稿では,ロボット操作に特化して設計された将来宇宙開発のための包括的フレームワークであるEnerVerseを紹介する。
EnerVerseは、内部チャンク空間モデリングのための畳み込みと双方向の注意機構をシームレスに統合し、低レベルの一貫性と連続性を保証する。
ビデオデータに固有の冗長性を認識し、無限に長いシーケンスを生成するために、スパースメモリコンテキストとチャンクワイズな一方向生成パラダイムを組み合わせることを提案する。
ロボットの能力をさらに強化するために、観察と分析を強化するフレキシブルな視点を提供するFree Anchor View (FAV)空間を導入する。
FAV空間は、運動モデリングの曖昧さを軽減し、制限された環境における物理的な制約を除去し、様々なタスクや設定にわたってロボットの一般化と適応性を著しく改善する。
マルチカメラ観測の禁止コストと労働強度に対処するため,4次元ガウススプラッティング(4DGS)と生成モデルを統合したデータエンジンパイプラインを提案する。
このパイプラインは、生成モデルの堅牢な一般化機能と4DGSが提供する空間的制約を活用して、データ品質と多様性を反復的に向上し、シムとリアルのギャップを効果的に狭めるデータフライホイール効果を生成する。
最後に, 実験により, 将来的な空間生成の実施により, 政策予測能力が大幅に向上し, 特に長距離ロボット操作タスクにおいて, 全体的な性能が向上することが実証された。
関連論文リスト
- Robotic Visual Instruction [16.826043418403614]
ロボット視覚指導(RoVI)は,物体中心の手描きシンボル表現を通じてロボットタスクを誘導する新しいパラダイムである。
RoVIは空間的時間情報を2Dスケッチを通じて人間の解釈可能な視覚命令にエンコードする。
本稿では,ロビ条件付きポリシーのためのパイプラインであるVisual Instruction Embodied(VIEW)を提案する。
論文 参考訳(メタデータ) (2025-05-01T17:55:05Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [56.424032454461695]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。
VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文 参考訳(メタデータ) (2025-03-10T10:04:58Z) - LaVin-DiT: Large Vision Diffusion Transformer [99.98106406059333]
LaVin-DiTは、20以上のコンピュータビジョンタスクを生成フレームワークで扱うために設計された、スケーラブルで統一された基盤モデルである。
視覚タスクの生成性能を最適化するための重要なイノベーションを紹介する。
このモデルは0.1Bから3.4Bのパラメータに拡張され、様々な視覚タスクにまたがる相当なスケーラビリティと最先端の性能を示す。
論文 参考訳(メタデータ) (2024-11-18T12:05:27Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Polaris: Open-ended Interactive Robotic Manipulation via Syn2Real Visual Grounding and Large Language Models [53.22792173053473]
我々はPolarisという対話型ロボット操作フレームワークを紹介した。
ポラリスはGPT-4と接地された視覚モデルを利用して知覚と相互作用を統合する。
本稿では,Syn2Real(Synthetic-to-Real)ポーズ推定パイプラインを提案する。
論文 参考訳(メタデータ) (2024-08-15T06:40:38Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Toward a Plug-and-Play Vision-Based Grasping Module for Robotics [0.0]
本稿では,複数のマニピュレータ間で容易に移動可能な視覚ベースの把握フレームワークを提案する。
このフレームワークは、オープンループ把持軌跡の多様なレパートリーを生成し、把握の多様性を維持しつつ、適応性を向上させる。
論文 参考訳(メタデータ) (2023-10-06T16:16:00Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy [2.9005223064604078]
本稿では,自律飛行に適したスケーラブルなAerial Synthetic Data Augmentation (ASDA) フレームワークを提案する。
ASDAは、シーンとデータ拡張を自動的に実行する2つのスクリプト可能なパイプラインを備えた中央データ収集エンジンを拡張している。
多様なデータセットを自動生成する手法の有効性を実証する。
論文 参考訳(メタデータ) (2022-11-10T04:37:41Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。