論文の概要: DockAnywhere: Data-Efficient Visuomotor Policy Learning for Mobile Manipulation via Novel Demonstration Generation
- arxiv url: http://arxiv.org/abs/2604.15023v1
- Date: Thu, 16 Apr 2026 13:53:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.929272
- Title: DockAnywhere: Data-Efficient Visuomotor Policy Learning for Mobile Manipulation via Novel Demonstration Generation
- Title(参考訳): DockAnywhere:新しいデモ生成によるモバイル操作のためのデータ効率の良いバイスモータポリシー学習
- Authors: Ziyu Shan, Yuheng Zhou, Gaoyuan Wu, Ziheng Ji, Zhenyu Wu, Ziwei Wang,
- Abstract要約: そこで我々は,DockAnywhereという,低コストなデモ生成フレームワークを提案する。
ドッキング可能な様々なドッキング構成に単一のデモを持ち上げることで、ドッキング可変下での視点一般化を改善する。
ManiSkillと現実世界のプラットフォームの実験は、DockAnywhereが政策の成功率を大幅に改善することを示した。
- 参考スコア(独自算出の注目度): 12.06893296430645
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile manipulation is a fundamental capability that enables robots to interact in expansive environments such as homes and factories. Most existing approaches follow a two-stage paradigm, where the robot first navigates to a docking point and then performs fixed-base manipulation using powerful visuomotor policies. However, real-world mobile manipulation often suffers from the view generalization problem due to shifts of docking points. To address this issue, we propose a novel low-cost demonstration generation framework named DockAnywhere, which improves viewpoint generalization under docking variability by lifting a single demonstration to diverse feasible docking configurations. Specifically, DockAnywhere lifts a trajectory to any feasible docking points by decoupling docking-dependent base motions from contact-rich manipulation skills that remain invariant across viewpoints. Feasible docking proposals are sampled under feasibility constraints, and corresponding trajectories are generated via structure-preserving augmentation. Visual observations are synthesized in 3D space by representing the robot and objects as point clouds and applying point-level spatial editing to ensure the consistency of observation and action across viewpoints. Extensive experiments on ManiSkill and real-world platforms demonstrate that DockAnywhere substantially improves policy success rates and easily generalizes to novel viewpoints from unseen docking points during training, significantly enhancing the generalization capability of mobile manipulation policy in real-world deployment.
- Abstract(参考訳): 移動操作は、ロボットが家や工場のような広大な環境で対話できる基本的な機能である。
既存のほとんどのアプローチは、2段階のパラダイムに従っており、まずロボットはドッキングポイントに移動し、次に強力な振動子ポリシーを使って固定ベースの操作を行う。
しかし、現実のモバイル操作は、ドッキングポイントのシフトによって視線一般化の問題に悩まされることが多い。
そこで本研究では,ドッキング可変性下での視点一般化を両立可能なドッキング構成に引き上げることにより,低コストなドッキング生成フレームワークDockAnywhereを提案する。
特にDockAnywhereは、ドッキングに依存したベースモーションを、さまざまな視点で不変のコンタクトリッチな操作スキルから切り離すことによって、あらゆる実現可能なドッキングポイントへの軌道を持ち上げる。
実現可能なドッキング提案は、実現可能性制約の下でサンプリングされ、構造保存拡張を通じて対応する軌道が生成される。
視覚的な観察は、ロボットと物体を点雲として表現し、視点をまたいだ観察と行動の整合性を確保するために点レベルの空間的編集を適用することによって、三次元空間で合成される。
ManiSkillと実世界のプラットフォームに関する大規模な実験は、DockAnywhereが政策の成功率を大幅に改善し、トレーニング中に目に見えないドッキングポイントから新しい視点に容易に一般化し、実世界の展開におけるモバイル操作ポリシーの一般化能力を著しく向上することを示した。
関連論文リスト
- Cortical Policy: A Dual-Stream View Transformer for Robotic Manipulation [57.28703268044067]
ロボット操作のための新しいデュアルストリームビュー変換器であるCortical Policyを提案する。
われわれのフレームワークは、ロボット操作の新しい視点を提供し、視覚に基づくロボット制御の幅広い応用の可能性を秘めている。
論文 参考訳(メタデータ) (2026-03-22T04:18:54Z) - Bench-Push: Benchmarking Pushing-based Navigation and Manipulation Tasks for Mobile Robots [6.551328007366227]
Bench-Pushはプッシュベースのモバイルロボットナビゲーションと操作タスクのための最初の統一ベンチマークである。
これには、プッシュベースのタスクにおける基本的な課題を捉える、シミュレーションされた環境の幅が含まれている。
また、効率性、インタラクションの取り組み、部分的なタスク完了を捉えるための新しい評価指標も含まれている。
論文 参考訳(メタデータ) (2025-12-12T17:25:32Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - ODYSSEY: Open-World Quadrupeds Exploration and Manipulation for Long-Horizon Tasks [46.676862567167625]
ODYSSEYは、マニピュレータを備えたアジャイル四足ロボットのための統合モバイル操作フレームワークである。
言語条件付きタスクにおける自我中心的認識の課題に対処するために,視覚言語モデルを用いた階層型プランナを導入する。
コントロールレベルでは、新しい全身政策は、挑戦的な地形をまたいだ堅牢な協調を実現する。
論文 参考訳(メタデータ) (2025-08-11T17:54:31Z) - Dita: Scaling Diffusion Transformer for Generalist Vision-Language-Action Policy [73.75271615101754]
本稿では,Transformerアーキテクチャを活用した拡張性のあるフレームワークであるDitaについて紹介する。
Ditaはコンテキスト内コンディショニング(context conditioning)を採用しており、歴史的観察から生の視覚トークンと識別されたアクションをきめ細やかなアライメントを可能にする。
Ditaは、さまざまなカメラパースペクティブ、観察シーン、タスク、アクションスペースの横断的なデータセットを効果的に統合する。
論文 参考訳(メタデータ) (2025-03-25T15:19:56Z) - Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。
本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。
この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文 参考訳(メタデータ) (2025-02-26T10:30:40Z) - Diffusion Transformer Policy [48.50988753948537]
本稿では,拡散変圧器ポリシー(Diffusion Transformer Policy)と呼ばれる多モード拡散変圧器を提案し,連続的なエンドエフェクタ動作をモデル化する。
トランスのスケーリング機能を活用することで、提案手法は、多種多様なロボットデータセットにわたる継続的エンドエフェクタアクションを効果的にモデル化することができる。
論文 参考訳(メタデータ) (2024-10-21T12:43:54Z) - Learning Generalizable Feature Fields for Mobile Manipulation [25.155275186849558]
本稿では,実時間でのナビゲーションと操作の統一表現として機能する,シーンレベルの一般化可能なニューラル特徴場であるGeFFを提案する。
オープンボキャブラリオブジェクト/部分レベルの操作におけるGeFFの能力を定量的に評価し、GeFFが実行時の点ベースラインとストレージ精度のトレードオフよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-12T11:51:55Z) - Articulated Object Interaction in Unknown Scenes with Whole-Body Mobile
Manipulation [16.79185733369416]
未知の環境下における大型関節オブジェクトとの自律的相互作用のための2段階アーキテクチャを提案する。
第1段階は学習モデルを用いて、RGB-D入力から対象物の調音モデルを推定し、相互作用のための状態の動作条件列を予測する。
第2段階は、生成した運動計画に沿ってオブジェクトを操作する全身運動制御装置からなる。
論文 参考訳(メタデータ) (2021-03-18T21:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。