論文の概要: RoboFlow4D: A Lightweight Flow World Model Toward Real-Time Flow-Guided Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2605.17522v1
- Date: Sun, 17 May 2026 16:11:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.125993
- Title: RoboFlow4D: A Lightweight Flow World Model Toward Real-Time Flow-Guided Robotic Manipulation
- Title(参考訳): RoboFlow4D:リアルタイムフロー誘導ロボットマニピュレーションに向けた軽量フローワールドモデル
- Authors: Sixu Lin, Junliang Chen, Huaiyuan Xu, Zhuohao Li, Guangming Wang, Yixiong Jing, Sheng Xu, Runyi Zhao, Brian Sheil, Lap-Pui Chau, Guiliang Liu,
- Abstract要約: 3D環境での計画と行動は、現実世界におけるロボット操作の基本的な能力である。
物理的3次元空間における時間的動きを推定することにより知覚と計画を統合する軽量なフローワールドモデルであるRoboFlow4Dを紹介する。
- 参考スコア(独自算出の注目度): 29.85979864354417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Planning and acting in 3D environments is a fundamental capability for robotic manipulation in the real world. Although prior work has explored predictive flow planners to guide 3D manipulation, existing approaches often rely on modular pipelines stacking multiple submodels, resulting in high computational overhead and limited real-time performance. To address these challenges, we introduce RoboFlow4D, a lightweight flow world model that unifies perception and planning by estimating temporal motion in physical 3D space. As an end-to-end framework, RoboFlow4D directly predicts multi-frame 3D flows from visual observations and textual instructions, providing explicit flow-based planning to guide action generation. This design allows seamless integration with general action policies, forming an efficient observation-planning-execution closed loop. Through slow-fast collaboration between flow prediction and action control, RoboFlow4D enables real-time and resource-efficient manipulation. Extensive experiments in both simulation and real-world settings demonstrate that RoboFlow4D consistently improves manipulation success rates and computational efficiency, advancing flow-guided planning for embodied intelligence.
- Abstract(参考訳): 3D環境での計画と行動は、現実世界におけるロボット操作の基本的な能力である。
従来の作業では3D操作を導くために予測フロープランナを探索していたが、既存のアプローチでは複数のサブモデルを積み重ねるモジュールパイプラインに依存しており、計算オーバーヘッドが高く、リアルタイムのパフォーマンスが制限されている。
これらの課題に対処するために,物理的3次元空間における時間的動きを推定することにより知覚と計画を統合する軽量なフローワールドモデルであるRoboFlow4Dを紹介する。
エンドツーエンドのフレームワークとして、RoboFlow4Dは、視覚的な観察とテキストによる指示から、マルチフレームの3Dフローを直接予測し、アクション生成をガイドするための明示的なフローベースの計画を提供する。
この設計により、一般的なアクションポリシーとのシームレスな統合が可能になり、効率的な観測計画実行ループを形成する。
フロー予測とアクション制御の遅いコラボレーションを通じて、RoboFlow4Dはリアルタイムおよびリソース効率の高い操作を可能にする。
シミュレーションと実世界の双方での大規模な実験により、RoboFlow4Dは操作の成功率と計算効率を一貫して改善し、インテリジェンスのためのフロー誘導計画を進めた。
関連論文リスト
- Ada3Drift: Adaptive Training-Time Drifting for One-Step 3D Visuomotor Robotic Manipulation [53.750389076941396]
拡散に基づくビジュモータポリシーは反復的認知を通じて多モーダルな動作分布をキャプチャするが、その高い推論遅延はリアルタイムロボット制御を制限する。
Ada3Driftは,専門家のデモモードに対して予測された行動を引き付ける訓練時間ドリフト場を学習する。
Ada3Driftは、拡散ベースの代替よりも10倍の関数評価を必要としながら、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-03-12T14:36:53Z) - An Efficient and Multi-Modal Navigation System with One-Step World Model [11.582535121562247]
現在のナビゲーションワールドモデルは、多段階拡散プロセスと自動回帰フレーム・バイ・フレーム生成に依存している。
本稿では,効率的な空間的注意力を備えたワンステップ生成パラダイムと3次元U-Netバックボーンを提案する。
この設計は、推論遅延を大幅に低減し、予測性能を向上しつつ、高周波制御を可能にする。
論文 参考訳(メタデータ) (2026-01-18T06:29:56Z) - FlowRAM: Grounding Flow Matching Policy with Region-Aware Mamba Framework for Robotic Manipulation [34.045199714747596]
FlowRAMは、生成モデルを利用して地域認識を実現する新しいフレームワークである。
FlowRAMは4段階未満のステップで、さまざまな現実世界のタスクに対して物理的に妥当なアクションを生成することができる。
論文 参考訳(メタデータ) (2025-06-19T10:30:02Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - Let Occ Flow: Self-Supervised 3D Occupancy Flow Prediction [14.866463843514156]
Occ Flowは、カメラ入力のみを使用して、関節の3D占有率と占有率の予測を行う最初の自己教師型作業である。
我々のアプローチは、動的オブジェクトの依存関係をキャプチャするために、新しい注意に基づく時間融合モジュールを組み込んでいる。
本手法は3次元容積流れ場に微分可能レンダリングを拡張する。
論文 参考訳(メタデータ) (2024-07-10T12:20:11Z) - FlowStep3D: Model Unrolling for Self-Supervised Scene Flow Estimation [87.74617110803189]
シーンフローとして知られるシーン内の点の3次元運動を推定することは、コンピュータビジョンにおける中核的な問題である。
本稿では,シーンフローの予測を洗練するための反復的アライメント手順の1ステップを学習する再帰的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-11-19T23:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。