論文の概要: Mobile UMI: Cross-View Diffusion Policy with Decoupled Kinematics for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2605.20894v1
- Date: Wed, 20 May 2026 08:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.574575
- Title: Mobile UMI: Cross-View Diffusion Policy with Decoupled Kinematics for Mobile Manipulation
- Title(参考訳): モバイルUMI:モバイル操作のための切り離されたキネマティクスを用いたクロスビュー拡散政策
- Authors: Haoran Huang, Haonan Dong, Huixu Dong,
- Abstract要約: 最近の手首搭載インタフェースはテーブルトップデータ収集のコストを下げるが、単一の手首ビューはベースナビゲーションに必要なグローバルなコンテキストを捉えない。
生成ポリシーは数百ミリ秒の推論遅延を導入します。
本稿では,3つのコンポーネント間のギャップに対処するハードウェアフリーなデモフレームワークであるMobile UMIを提案する。
- 参考スコア(独自算出の注目度): 4.311650365696827
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile imitation learning on portable demonstration interfaces faces two coupled bottlenecks: locomotion-contaminated action labels and inference-induced execution latency on a continuously moving base. Recent wrist-mounted interfaces lower the cost of tabletop data collection, yet a single wrist view does not capture the global context required for base navigation. Adding a body-mounted camera entangles human walking with hand motion. Meanwhile, generative policies introduce hundreds of milliseconds of inference latency, during which the base advances past predicted waypoints, forcing backward corrections at action splices. This paper presents Mobile UMI, a hardware-free demonstration framework that addresses both gaps through three components. First, a dual-camera capture system records chest-centric global context and wrist-centric local interaction without any robot present. Second, a one-shot ChArUco-based spatial anchor unifies the chest and hand visual-inertial frames; the hand pose is then re-expressed relative to the chest to extract decoupled SE(3) manipulation and SE(2) base trajectories. Third, an asynchronous receding-horizon executor performs online state matching: each generated action chunk is realigned with the current physical pose so that expired waypoints are discarded before execution. The full system is evaluated on four long-horizon household tasks, achieving an average success rate of 83.8% over 100 trials per task. Controlled comparisons against ACT and Diffusion Policy show that the chest-relative label alone closes much of the gap; online state matching closes the remainder. These results indicate that, for mobile imitation learning under the tested conditions, explicit kinematic factorization combined with state-level latency alignment provides an effective solution without requiring architectural changes to the underlying policy class.
- Abstract(参考訳): 携帯型デモインタフェース上でのモバイル模倣学習には,ロコモーションに汚染されたアクションラベルと,連続的な移動ベースでの推論による実行遅延という,2つのボトルネックが伴う。
最近の手首搭載インタフェースはテーブルトップデータ収集のコストを下げるが、単一の手首ビューはベースナビゲーションに必要なグローバルなコンテキストを捉えない。
ボディマウントカメラを追加すると、人間の歩行が手の動きで絡み合う。
一方、生成ポリシーは数百ミリ秒の推論遅延を導入し、ベースは予測された経路を通り過ぎ、アクションスプライスの後方修正を強制する。
本稿では,3つのコンポーネント間のギャップに対処するハードウェアフリーなデモフレームワークであるMobile UMIを提案する。
まず、デュアルカメラキャプチャシステムは、胸部中心のグローバルコンテキストと手首中心のローカルインタラクションを、ロボットがいない状態で記録する。
第2に、一発のChArUcoベースの空間アンカーは、胸部と手指の視覚慣性フレームを統一し、手ポーズを胸部に対して再表現し、切り離されたSE(3)操作とSE(2)ベーストラジェクトリを抽出する。
第3に、非同期レディングホライゾンエグゼキュータがオンライン状態マッチングを実行する:各生成されたアクションチャンクが現在の物理ポーズに整列され、期限切れのウェイポイントが実行前に破棄される。
フルシステムは4つの長期の家庭用タスクで評価され、平均的な成功率はタスク当たり100回の試験で83.8%である。
ACTと拡散政策との制御された比較は、胸部相対ラベルだけがギャップの大部分を閉じており、オンライン状態マッチングが残りを閉じていることを示している。
これらの結果は, テスト条件下でのモバイル模倣学習において, 明示的な運動因子化と状態レベルの遅延アライメントを組み合わせることで, 基礎となるポリシークラスにアーキテクチャ的変更を加えることなく, 効果的な解が得られることを示唆している。
関連論文リスト
- MoCapAnything V2: End-to-End Motion Capture for Arbitrary Skeletons [56.68975315643491]
本稿では,ビデオ・ツー・ローテーションとビデオ・ツー・ローテーションを共同で学習し,最適化する,最初のエンドツーエンドフレームワークを提案する。
本手法は, メッシュベースパイプラインの20倍の速度で, 回転誤差を17度から10度, 見えない骨格では6.54度に低減する。
論文 参考訳(メタデータ) (2026-04-30T17:16:38Z) - AG-EgoPose: Leveraging Action-Guided Motion and Kinematic Joint Encoding for Egocentric 3D Pose Estimation [11.399976049695212]
AG-EgoPoseは、短距離と長距離の動作コンテキストときめ細かい空間的手がかりを統合して、ロバストなポーズ推定を行う新しいデュアルストリームフレームワークである。
空間ストリームは、重量共有型ResNet-18エンコーダデコーダを用いて、2次元ジョイントヒートマップを生成する。
時間ストリームはResNet-50バックボーンを使用して視覚的特徴を抽出し、アクション認識バックボーンによって処理され、モーションダイナミクスをキャプチャする。
論文 参考訳(メタデータ) (2026-03-26T08:46:51Z) - COVTrack++: Learning Open-Vocabulary Multi-Object Tracking from Continuous Videos via a Synergistic Paradigm [59.26203051651017]
C-TAOはOpen-Vocabulary Multi-Object Tracking (OVMOT)のための最初の連続アノテーション付きトレーニングセットである
フレームワークボトルネックに対するCOVTrack++は,3つのモジュールによる検出とアソシエーションの双方向相互機構を実現するための相乗的フレームワークである。
TAOの実験では、新しいTAAは検証とテストセットで35.4%、30.5%に達し、新しいAssocAは4.8%、新しいLocAは5.8%向上した。
論文 参考訳(メタデータ) (2026-03-25T07:20:27Z) - MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment [32.178798481694834]
3つの課題に対処するために設計された,階層的なコントラスト学習フレームワークであるMoBindを紹介する。
モーション関連キューを分離するために、MoBindはIMU信号を生のピクセルではなく骨格的なモーションシーケンスと整列する。
詳細な時間的対応を捉えるために、MoBindは階層的なコントラスト戦略を採用し、まずトークンレベルの時間的セグメントを整列させ、次にグローバル(体全体)のモーションアグリゲーションと局所的な(身体部分)アライメントを融合させる。
論文 参考訳(メタデータ) (2026-02-22T01:54:29Z) - Exploring Category-level Articulated Object Pose Tracking on SE(3) Manifolds [46.859932208933735]
人工物は日常生活やロボット操作のタスクで広く使われている。
調音された物体のポーズ追跡は 固有のキネマティックな制約のために 未発見の問題のままです
本研究は,textbfPPF-Tracker と呼ばれる新しいポイントペア型ポーズトラッキングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-08T12:56:21Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - MATE: Motion-Augmented Temporal Consistency for Event-based Point Tracking [58.719310295870024]
本稿では,任意の点を追跡するイベントベースのフレームワークを提案する。
事象の間隔に起因する曖昧さを解決するため、運動誘導モジュールは運動ベクトルを局所的なマッチングプロセスに組み込む。
このメソッドは、任意のポイントベースラインのイベントのみのトラッキングに対して、$Survival_50$メトリックを17.9%改善する。
論文 参考訳(メタデータ) (2024-12-02T09:13:29Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Tsanet: Temporal and Scale Alignment for Unsupervised Video Object
Segmentation [21.19216164433897]
Unsupervised Video Object (UVOS) は、手動による指示なしに、ビデオ内の顕著なオブジェクトをセグメンテーションする難しいタスクを指す。
上記の2つのアプローチの限界に対処できるUVOSの新しいフレームワークを提案する。
DAVIS 2016 と FBMS という公開ベンチマークデータセットを用いて,本手法の有効性を実証した実験結果を示す。
論文 参考訳(メタデータ) (2023-03-08T04:59:43Z) - Real-time Controllable Motion Transition for Characters [14.88407656218885]
リアルタイムの動作生成はゲームでは普遍的に必要であり、既存のアニメーションパイプラインでは非常に望ましい。
我々のアプローチは、運動多様体と条件遷移という2つの重要な構成要素から構成される。
提案手法は,複数の測定基準の下で測定された高品質な動きを生成できることを示す。
論文 参考訳(メタデータ) (2022-05-05T10:02:54Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。