論文の概要: SuperSuit: An Isomorphic Bimodal Interface for Scalable Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2603.06280v1
- Date: Fri, 06 Mar 2026 13:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.992946
- Title: SuperSuit: An Isomorphic Bimodal Interface for Scalable Mobile Manipulation
- Title(参考訳): SuperSuit: スケーラブルなモバイル操作のための同型バイモーダルインタフェース
- Authors: Tongqing Chen, Hang Wu, Jiasen Wang, Xiaotao Li, Zhu Jin, Lu Fang,
- Abstract要約: ロボット・イン・ザ・ループの遠隔操作とアクティブなデモンストレーションの両方をサポートするバイモーダルデータ取得フレームワークである textbfSuperSuit を,共有キネマティックインタフェース下で提供する。
長距離移動操作タスクにおける実世界実験では、遠隔操作ベースラインと比較してアクティブモードでの2.6$times$高いデモスループット、固定データセットサイズでのアクティブなデモンストレーションによる遠隔操作データ置換時のポリシー性能、アクティブなデータボリュームの増加に伴うモノトニックパフォーマンスの向上が示されている。
- 参考スコア(独自算出の注目度): 8.367600706539774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-quality, long-horizon demonstrations are essential for embodied AI, yet acquiring such data for tightly coupled wheeled mobile manipulators remains a fundamental bottleneck. Unlike fixed-base systems, mobile manipulators require continuous coordination between $SE(2)$ locomotion and precise manipulation, exposing limitations in existing teleoperation and wearable interfaces. We present \textbf{SuperSuit}, a bimodal data acquisition framework that supports both robot-in-the-loop teleoperation and active demonstration under a shared kinematic interface. Both modalities produce structurally identical joint-space trajectories, enabling direct data mixing without modifying downstream policies. For locomotion, SuperSuit maps natural human stepping to continuous planar base velocities, eliminating discrete command switches. For manipulation, it employs a strictly isomorphic wearable arm in both modes, while policy training is formulated in a shift-invariant delta-joint representation to mitigate calibration offsets and structural compliance without inverse kinematics. Real-world experiments on long-horizon mobile manipulation tasks show 2.6$\times$ higher demonstration throughput in active mode compared to a teleoperation baseline, comparable policy performance when substituting teleoperation data with active demonstrations at fixed dataset size, and monotonic performance improvement as active data volume increases. These results indicate that consistent kinematic representations across collection modalities enable scalable data acquisition for long-horizon mobile manipulation.
- Abstract(参考訳): 高品質で長期にわたるデモンストレーションは、AIを具現化する上で不可欠だが、タイトに結合した移動マニピュレータのためにそのようなデータを取得することは、依然として基本的なボトルネックである。
固定ベースシステムとは異なり、移動マニピュレータは$SE(2)$の移動と正確な操作を連続的に調整する必要がある。
ロボット・イン・ザ・ループの遠隔操作とアクティブなデモンストレーションの両方をサポートするバイモーダルデータ取得フレームワークである \textbf{SuperSuit} を,共有キネマティックインタフェース下で提供する。
両方のモダリティは構造的に同一の結合空間軌道を生成し、下流のポリシーを変更することなく直接データ混合を可能にする。
移動のために、SuperSuitは自然の人間の歩数を連続した平面基底速度にマッピングし、個別のコマンドスイッチを除去する。
操作には両モードで厳密な同型ウェアラブルアームを使用し、ポリシートレーニングはシフト不変のデルタ接合表現で定式化され、キャリブレーションオフセットと構造コンプライアンスを逆運動学なしで緩和する。
長距離移動操作タスクにおける実世界実験では、遠隔操作ベースラインと比較してアクティブモードでの2.6$\times$高いデモスループット、固定データセットサイズでのアクティブなデモンストレーションによる遠隔操作データ置換時のポリシー性能、アクティブなデータボリュームの増加に伴うモノトニックパフォーマンスの向上が示されている。
これらの結果は,コレクションモダリティ間の一貫したキネマティック表現が,長期移動操作のためのスケーラブルなデータ取得を可能にすることを示唆している。
関連論文リスト
- OmniVTA: Visuo-Tactile World Modeling for Contact-Rich Robotic Manipulation [60.609604885961716]
textbfOmniViTacは,16ドルのタスクと100ドル以上のオブジェクトからなる21,000ドル以上のトラジェクトリからなる大規模ビズオタクティルアクションデータセットである。
我々は4つの密結合モジュールを統合する世界モデルベースのビジュオ触覚操作フレームワークである textbf OmniVTA を提案する。
論文 参考訳(メタデータ) (2026-03-19T17:52:42Z) - DriveMamba: Task-Centric Scalable State Space Model for Efficient End-to-End Autonomous Driving [47.573692944838115]
DriveMambaは、効率的なE2E-ADのためのタスク中心のスケーラブルパラダイムである。
シーケンシャルなタスク関係モデリング、暗黙の対応学習、長期の時間的融合を単一ステージのUnified Mambaデコーダに統合する。
nuScenesとBench2Driveデータセットで実施された大規模な実験は、DriveMambaの優位性、一般化性、および大幅な効率性を実証している。
論文 参考訳(メタデータ) (2026-02-09T11:48:29Z) - AC-DiT: Adaptive Coordination Diffusion Transformer for Mobile Manipulation [31.314066269767057]
移動操作は、家庭作業において言語条件のロボット制御を可能にすることで注目を集めている。
既存の手法では、移動体ベースがマニピュレータ制御に与える影響を明示的にモデル化することができない。
本稿では,適応座標拡散変換器 (AC-DiT) を提案する。
論文 参考訳(メタデータ) (2025-07-02T17:59:54Z) - A Unified Transformer-Based Framework with Pretraining For Whole Body Grasping Motion Generation [6.465569743109499]
全身把握のためのトランスフォーマーベースの新しいフレームワークを提案する。
ポーズの生成と動きの埋め合わせに対処し、現実的で安定したオブジェクトの相互作用を可能にする。
本手法は,コヒーレンス,安定性,視覚的リアリズムの観点から,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-07-01T11:18:23Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Consolidating Kinematic Models to Promote Coordinated Mobile
Manipulations [96.03270112422514]
我々は,移動体ベース,アーム,移動体操作で操作する物体の運動学を統合する仮想キネマティックチェイン(VKC)を構築した。
移動操作タスクは、構築されたVKCの状態を変更して表現され、移動計画問題に変換することができる。
論文 参考訳(メタデータ) (2021-08-03T02:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。