論文の概要: MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2512.04813v1
- Date: Thu, 04 Dec 2025 14:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.128862
- Title: MOVE: A Simple Motion-Based Data Collection Paradigm for Spatial Generalization in Robotic Manipulation
- Title(参考訳): MOVE:ロボットマニピュレーションにおける空間一般化のためのシンプルな動きに基づくデータ収集パラダイム
- Authors: Huanqian Wang, Chi Bene Chen, Yang Yue, Danhua Tao, Tong Guo, Shaoxuan Xie, Denghang Huang, Shiji Song, Guocai Yao, Gao Huang,
- Abstract要約: 簡単なデータ収集パラダイムである textbfMOtion-based Variability Enhancement (emphMOVE) を提案する。
私たちのコアコントリビューションは、デモ毎に環境内の任意の可動オブジェクトに動きを注入する拡張戦略です。
emphMOVEの平均成功率は39.1%であり、静的データ収集パラダイムよりも76.1%向上している。
- 参考スコア(独自算出の注目度): 45.363862148738114
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Imitation learning method has shown immense promise for robotic manipulation, yet its practical deployment is fundamentally constrained by the data scarcity. Despite prior work on collecting large-scale datasets, there still remains a significant gap to robust spatial generalization. We identify a key limitation: individual trajectories, regardless of their length, are typically collected from a \emph{single, static spatial configuration} of the environment. This includes fixed object and target spatial positions as well as unchanging camera viewpoints, which significantly restricts the diversity of spatial information available for learning. To address this critical bottleneck in data efficiency, we propose \textbf{MOtion-Based Variability Enhancement} (\emph{MOVE}), a simple yet effective data collection paradigm that enables the acquisition of richer spatial information from dynamic demonstrations. Our core contribution is an augmentation strategy that injects motion into any movable objects within the environment for each demonstration. This process implicitly generates a dense and diverse set of spatial configurations within a single trajectory. We conduct extensive experiments in both simulation and real-world environments to validate our approach. For example, in simulation tasks requiring strong spatial generalization, \emph{MOVE} achieves an average success rate of 39.1\%, a 76.1\% relative improvement over the static data collection paradigm (22.2\%), and yields up to 2--5$\times$ gains in data efficiency on certain tasks. Our code is available at https://github.com/lucywang720/MOVE.
- Abstract(参考訳): 模倣学習法はロボット操作において大きな可能性を秘めているが、その実践的展開はデータ不足によって根本的に制約されている。
大規模なデータセットを収集する以前の作業にもかかわらず、ロバストな空間一般化には依然として大きなギャップが残っている。
個々の軌道は長さに関係なく、通常環境の「emph{single, static space configuration」から収集される。
これには、固定されたオブジェクトとターゲットの空間位置、および、学習に利用可能な空間情報の多様性を著しく制限するカメラ視点の変化が含まれる。
データ効率におけるこの重要なボトルネックを解決するために,動的デモンストレーションからよりリッチな空間情報の取得を可能にする,単純かつ効果的なデータ収集パラダイムである \textbf{MOtion-Based Variability Enhancement} (\emph{MOVE}) を提案する。
私たちのコアコントリビューションは、デモ毎に環境内の任意の可動オブジェクトに動きを注入する拡張戦略です。
この過程は、単一の軌道内で密集した多様な空間配置を暗黙的に生成する。
シミュレーションと実環境の両方で広範な実験を行い、我々のアプローチを検証する。
例えば、強い空間一般化を必要とするシミュレーションタスクでは、 \emph{MOVE} は39.1\%の平均的な成功率、静的データ収集パラダイム(22.2\%)に対する76.1\%の相対的な改善を実現し、特定のタスクにおけるデータ効率の最大2--5$\times$ゲインを得る。
私たちのコードはhttps://github.com/lucywang720/MOVE.comから入手可能です。
関連論文リスト
- ESPADA: Execution Speedup via Semantics Aware Demonstration Data Downsampling for Imitation Learning [18.435889278351297]
ESPADAは3Dグリップ・オブジェクト関係を持つVLM-LLMパイプラインを使用して、デモをセグメント化するセマンティックなフレームワークである。
1つの注釈付きエピソードからフルデータセットにスケールするために、ESPADAはDynamic Time Warpingを通じてセグメントラベルを伝搬する。
ESPADAは成功率を維持しながら約2倍のスピードアップを実現し、人間のデモと効率的なロボット制御のギャップを狭める。
論文 参考訳(メタデータ) (2025-12-08T10:08:33Z) - Bridging Simulation and Reality: Cross-Domain Transfer with Semantic 2D Gaussian Splatting [60.513168855890974]
ロボット操作におけるクロスドメイン転送は、シミュレートされた環境と実世界の環境の間に大きなドメインギャップがあるため、長年にわたる課題である。
本研究では,オブジェクト中心の領域不変空間特徴を抽出する新しい表現法であるSemantic 2D Gaussian Splatting (S2GS)を提案する。
S2GSはsim-to-real転送性を大幅に改善し、現実世界のシナリオで高安定なタスク性能を維持する。
論文 参考訳(メタデータ) (2025-12-04T12:16:15Z) - SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding [64.86119288520419]
マルチモーダル言語モデルは時間と空間の空間的推論に苦しむ。
SIMS-Vは3次元シミュレータの特権情報を利用するシステムデータ生成フレームワークである。
提案手法は,実世界の空間的タスクの具体的改善を図りながら,一般的な映像理解の性能を維持しながら,堅牢な一般化を実証する。
論文 参考訳(メタデータ) (2025-11-06T18:53:31Z) - InternVLA-M1: A Spatially Guided Vision-Language-Action Framework for Generalist Robot Policy [138.89177083578213]
空間接地とロボット制御のための統合フレームワークであるInternVLA-M1を紹介する。
InternVLA-M1は、(i)2.3M以上の空間的推論データに基づく空間的グラウンドトレーニングと(ii)空間的に誘導された後トレーニングという、2段階のパイプラインを使用する。
結果: InternVLA-M1 は SimplerEnv Google Robot で+14.6%、WidowX で+17%、LIBERO Franka で+4.3% で、空間誘導なしでその変種を上回った。
論文 参考訳(メタデータ) (2025-10-15T17:30:05Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - LRR-Bench: Left, Right or Rotate? Vision-Language models Still Struggle With Spatial Understanding Tasks [22.011855291417856]
VLM(Vision-Language Models)が空間的関係を認識し空間的動きを知覚する方法は、まだ解明されていない。
本研究では,空間評価パイプラインを導入し,対応するベンチマークを構築する。
我々は、複数の最先端VLMの実験を行い、改善の余地があることを観察する。
論文 参考訳(メタデータ) (2025-07-27T08:31:24Z) - ManiBox: Enhancing Spatial Grasping Generalization via Scalable Simulation Data Generation [37.73074657448699]
bfManiBoxは、シミュレーションベースの教師学生フレームワーク上に構築された新しいバウンディングボックス誘導操作手法である。
ManiBoxは、空間的把握の一般化と多様なオブジェクトや背景への適応性を著しく改善した。
論文 参考訳(メタデータ) (2024-11-04T07:05:02Z) - Spatial Pyramid Based Graph Reasoning for Semantic Segmentation [67.47159595239798]
セマンティックセグメンテーションタスクにグラフ畳み込みを適用し、改良されたラプラシアンを提案する。
グラフ推論は、空間ピラミッドとして構成された元の特徴空間で直接実行される。
計算とメモリのオーバーヘッドの利点で同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2020-03-23T12:28:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。